LLM – 陈少文的网站

使用 lmcache 能显著改善模型推理的 TTFT

📅 2025年09月17日 · ☕ 5 分钟

1. LMCache 简介 TTFT 是指从请求发出到模型生成第一个 token 的时间。由于 Prefill 阶段需要把输入的上下文编码成 KV Cache，才能开始生成，在生成第一个 token 时需要大量的计算从而导致 TTFT 很高。为了降低 TTFT，有一个思路就是将 Prefill 阶段计算出来的 KV Cache 缓存起来，下次遇到相同的上下

对齐 Ops，使用新思路重写 Ops Copilot 已更新

📅 2024年05月01日 · ☕ 7 分钟

1. 让 Ops Copilot 成为 Ops Coilot 在 2023 年 09 月，我写过一版 Ops Copilot，也有文章发出我在给 Ops 工具写 Copilot 。实现的效果是这样的： 1 2 3 4 5 6 7 8 9 10 Opscli> 打开浏览器 Open a browser and navigate to 'https://www.google.com'. ↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓ import webbrowser webbrowser.open('https://www.google.com') ↑↑↑↑↑↑↑↑↑↑↑

用了一个月，终于找到点写 AI Agent 的思路

📅 2024年03月16日 · ☕ 9 分钟

1. 不断尝试落地 AI 应用端基于对运维的认知，我开发了一个开源的运维工具 https://github.com/shaowenchen/ops 。 Ops 工具将运维操作划分为脚本执行、文件分发两类，而运维对象主机和 Kubernetes 集群分别都实现了这两种运维操作。 Ops 对外提供的能力有，Ops Cli 命令行终端，Ops Server 服务端 API 接口，Ops Controller 集群

微信、公众号接入 GPT 服务

📅 2023年12月26日 · ☕ 4 分钟

提供有偿接入服务，200 RMB/年；另外，提供技术支持 200 RMB/次，不超过 1 hour；关注公众号，可获得联系方式。 1. 需要提供的信息进入 https://mp.weixin.qq.com/ 在左侧菜单栏【设置与开发】-> 【基本设置】，就能找到下面的信息 AppID 开发者 ID，可以明文直接查看到。 AppSecret

大模型应用设计与实现指南

📅 2023年12月23日 · ☕ 9 分钟

1. 直接使用大模型面临的问题输出不稳定性生成式 AI 的特点之一，输出结果的多样性。同样一个问题，问大模型多次，可能会得到不同的答案。这种输出的不确定性，在对话、创作场景下，会给用户带来惊喜。但在确定性要求比较高的场景下，大模型进入不了采纳阶段。数