大模型 – 陈少文的网站

使用 vLLM 进行模型推理

📅 2025年01月18日 · ☕ 5 分钟

1. 环境准备下载 Miniforge 1 wget "https://github.com/conda-forge/miniforge/releases/latest/download/Miniforge3-$(uname)-$(uname -m).sh" 安装 Miniforge 1 bash Miniforge3-$(uname)-$(uname -m).sh 1 2 echo "export PATH=$HOME/miniforge3/bin:$PATH" >> ~/.bashrc source ~/.bashrc 创建环境 1 conda create -n vllm python=3.12 目前 vllm 要求 Python 3.9+ 激活环境 1 conda activate vllm 安装依赖 1 conda install vllm 2. 推理测试 2.1 模型准备设置模型地址海外 1 export MODEL_REPO=https://huggingface.co/Qwen/Qwen1.5-1.8B-Chat 国内 1 export MODEL_REPO=https://hf-mirror.com/Qwen/Qwen1.5-1.8B-Chat 下载模型 1 nerdctl run --rm -v ./:/runtime shaowenchen/git lfs clone $MODEL_REPO 2.2 Offline Batched Inference 这种推理方式适用于离线场景，比

使用 vLLM 应用验证推理节点

📅 2025年01月16日 · ☕ 1 分钟

1. 制作镜像为了方便测试，这里将模型文件打包到镜像中。下载模型 1 2 3 4 git clone https://huggingface.co/Qwen/Qwen1.5-1.8B-Chat cd Qwen1.5-1.8B-Chat && git lfs pull rm -rf .git cd .. 编写 Dockerfile 1 2 3 4 5 cat <<EOF > Dockerfile FROM vllm/vllm-openai:latest RUN mkdir -p /models/Qwen1.5-1.8B-Chat COPY Qwen1.5-1.8B-Chat/* /models/Qwen1.5-1.8B-Chat EOF 编译镜像 1 nerdctl build --platform=amd64 -t registry-1.docker.io/shaowenchen/demo:vllm-qwen-1.5-1.8b-chat-amd64 . 推送镜像 1 nerdctl push --platform=amd64 registry-1.docker.io/shaowenchen/demo:vllm-qwen-1.5-1.8b-chat-amd64 2. 主机上推理服务设置环境变量国内 1 export IMAGE=shaowenchen/demo:vllm-qwen-1.5-1.8b-chat-amd64 国外 1 export IMAGE=registry-1.docker.io/shaowenchen/demo:vllm-qwen-1.5-1.8b-chat-amd64 指定设备，运

AI 应用开发技术栈

📅 2025年01月12日 · ☕ 4 分钟

Embedding 模型 Embedding 模式将高维度的数据映射到低维度的空间，这样有利于数据的处理和分析。文本模型这里有一个排行榜，https://huggingface.co/spaces/mteb/leaderboard 在上面的排行榜中，会给出模型的评分，模型的参数量

什么是 Token

📅 2024年09月10日 · ☕ 2 分钟

Token 是一个与数据紧密相关的单位，可以用来度量训练模型所需的语料量，还可以用来度量推理时的输入和输出长度。 1. token 是什么 Token 可以是一个完整的单词、子词，甚至是一个字符。在语言模型中，文本被拆分为若干个 token，模型逐一处理这些 token 来生成预测或生成新文

什么是 FLOPs

📅 2024年09月09日 · ☕ 1 分钟

1. 关于 FLOPs FLOPs（Floating Point Operations Per Second）指的是每秒执行的浮点数运算次数。具体地说：一次浮点加法：如 a + b，被计为一次浮点运算。一次浮点乘法：如 a * b，也被计为一次浮点运算。其他基本浮点运算：如除法和平方根，也可以被计为一次浮