使用 CPU 推理 llama 结构的大模型
· ☕ 4 分钟
1. 本地容器运行 启动 LLM 1 docker run --rm -p 8000:8000 shaowenchen/chinese-alpaca-2-7b-gguf:Q2_K 在 http://localhost:8000/docs 页面即可看到接口文档,如下图: 部署一个简单的 Chat UI 这里需要注意的是 OPENAI_API_HOST 参数,需要设置为你的宿主机 IP 地址,而不是 localhost 127.0.0.1,否则无法访问。 1 docker run -e OPENAI_API_HOST=http://{YOUR_HOST_IP}:8000 -e OPENAI_API_KEY=random -p 3000:3000 hubimage/chatbot-ui:main 页面效果如下: 2. K8s 快速部署 部署 LLM 应用 kubectl create

大模型部署工具 llama.cpp
· ☕ 7 分钟
1. 大模型部署工具 llama.cpp 大模型的研究分为训练和推理两个部分。训练的过程,实际上就是在寻找模型参数,使得模型的损失函数最小化,推理结果最优化的过程。训练完成之后,模型的参数就固定了,这时候就可以使用模型进行推理,对外提供服务。 llama.cpp 主要解决的是推理过程

有一定免费 GPT-4-32K 额度,需要的粉丝速速体验
· ☕ 1 分钟
1. 申请到 GPT-4-32K API 了 之前在 Azure 上提交申请使用 GPT-4,前几天收到审核通过的邮件了。 价格收费如下: Context Length Prompt per 1,000 tokens (8k) Completion per 1,000 tokens (32k) 8k $0.03 $0.06 32k $0.06 $0.12 请求限速为 60K TPM,即每分钟最多能处理 60K 个 Tokens。 2. 使用方式 无需登录,直接访问 https://chatgpt.chenshaowen.com/ 点击设置 输入访问密码 Access Code 密码

使用云上基础设施遇到的一些坑
· ☕ 4 分钟
1. 配额限制 每种云上的资源,能用多少是有限制的。 这是云厂为了防止资源滥用,降低租户之间的相互影响。 比如,一个账户下的企业项目数、弹性主机的数量、弹性公网 IP 的数量、弹性公网 IP 带宽的大小等。 因配额不够导致的资源申请失败,很常见;但在弹性业务高峰期

transformers 库的使用
· ☕ 4 分钟
transformers 是由 Hugging Face 开发的 Python 库,用于在自然语言处理(NLP)任务中使用和训练预训练的 Transformer 模型。它提供了许多强大的工具和功能,使得处理文本数据和构建 NLP 模型变得更加容易。该库广泛应用于各种 NLP 任务,如文本分类、命名实体识别、问答、文本生成等。 1. transformers 中的 pipeline pipeline 提供