AI – 陈少文的网站

大模型应用设计与实现指南

📅 2023年12月23日 · ☕ 9 分钟

1. 直接使用大模型面临的问题输出不稳定性生成式 AI 的特点之一，输出结果的多样性。同样一个问题，问大模型多次，可能会得到不同的答案。这种输出的不确定性，在对话、创作场景下，会给用户带来惊喜。但在确定性要求比较高的场景下，大模型进入不了采纳阶段。数

由于定价和限制会随时间变化，本文仅供撰写当前时间参考。 1. 术语 RPM (requests per minute) 每分钟请求次数 RPD (requests per day) 每天请求次数 TPM (tokens per minute) 每分钟 Token 数 TPD (tokens per day), 每天 Token 数在 https://platform.openai.com/tokenizer 可以根据文本查询对应的 token 数。在 https://github.com/openai/tiktoken/blob/main/tiktoken/model.py 可以发现 text-embedding-ada-002 与 gpt-3.5、gpt-4 的词表都是 cl100k_bas

我在给 Ops 工具写 Copilot

📅 2023年09月23日 · ☕ 4 分钟

1. 什么是 Ops 工具 https://www.chenshaowen.com/ops/ 是我日常运维最频繁使用的工具之一。运维机器，我可以复用之前的脚本，批量进行操作。运维集群，我可以复用之前的脚本，不用登录节点也可以操作机器。如果遇到新的运维问题，我会马上编写 Task Yaml 对操作进行固化，方便下一次复用。 Ops 的核心操作是

使用 CPU 推理 llama 结构的大模型

📅 2023年09月16日 · ☕ 4 分钟

1. 本地容器运行启动 LLM 1 docker run --rm -p 8000:8000 shaowenchen/chinese-alpaca-2-7b-gguf:Q2_K 在 http://localhost:8000/docs 页面即可看到接口文档，如下图: 部署一个简单的 Chat UI 这里需要注意的是 OPENAI_API_HOST 参数，需要设置为你的宿主机 IP 地址，而不是 localhost 127.0.0.1，否则无法访问。 1 docker run -e OPENAI_API_HOST=http://{YOUR_HOST_IP}:8000 -e OPENAI_API_KEY=random -p 3000:3000 ghcr.io/mckaywrigley/chatbot-ui:main 页面效果如下: 2. K8s 快速部署部署 LLM 应用 kubectl create

大模型部署工具 llama.cpp

📅 2023年09月05日 · ☕ 7 分钟

1. 大模型部署工具 llama.cpp 大模型的研究分为训练和推理两个部分。训练的过程，实际上就是在寻找模型参数，使得模型的损失函数最小化，推理结果最优化的过程。训练完成之后，模型的参数就固定了，这时候就可以使用模型进行推理，对外提供服务。 llama.cpp 主要解决的是推理过程

AI