1. LiteLLM 是什么
LiteLLM 是开源 LLM 适配器:用 OpenAI 标准格式调用 100+ 种 API(OpenAI、Anthropic、Gemini、Bedrock、Azure、Ollama、vLLM、通义千问等)。
两种用法:
- Python SDK — 代码内直接调用
- AI Gateway — 团队级代理,带鉴权、计费、负载均衡和管理后台
把「每个模型一套 SDK、鉴权、请求格式」收敛成一个接口、一份配置。
2. 为什么需要它
| 问题 | 没有网关 | 有 LiteLLM |
|---|---|---|
| SDK 碎片化 | 各 provider 各一套客户端 | 统一 OpenAI 格式 |
| 密钥管理 | Key 散落各处 | 网关集中保管,下游用 Virtual Key |
| 成本追踪 | 账单难归因 | 按 key/team/user 统计 |
| 模型切换 | 改 provider 要重写逻辑 | 改 config.yaml 即可 |
| 高可用 | 单点故障 | fallback、负载均衡、重试 |
3. 核心使用场景
- 多模型统一集成 — 一套 OpenAI 格式代码,改模型名即可切换 GPT、Claude、通义千问
- 故障转移 — GPT-4 限流或宕机时自动切 Claude,再切本地 Llama
- 负载均衡 — 多个 Key 或 Endpoint 间轮询,突破 TPM/RPM 限制
- 企业 AI 网关 — 统一密钥、预算配额、日志审计
- 成本监控 — 内置价格表,支持推送到 Prometheus、Langfuse
- 本地/云端切换 — 开发用 Ollama,上线换 GPT-4,代码不用改
| |
做 AI 产品开发、需要多模型接入或团队密钥管理时,LiteLLM 基本是标配;偶尔用一下单模型则未必需要。
4. 两种使用模式
4.1 Python SDK
适合脚本、服务内嵌调用。模型名格式 provider/model,SDK 负责格式转换。
| |
4.2 AI Gateway
适合团队共享、多应用接入。客户端把 base_url 指向网关即可:
| |
客户端 → LiteLLM Gateway (:4000) → 100+ Provider
鉴权 / 路由 / 护栏 / 计费
| 场景 | 推荐 |
|---|---|
| 个人脚本、单服务内嵌 | Python SDK |
| 团队共享、Virtual Key、预算审计 | AI Gateway |
5. 核心能力
- 统一端点:
/v1/chat/completions、/v1/embeddings、图像/语音/批量推理等 - Virtual Key:Master Key 管理,Virtual Key 绑定 budget、rate limit、model 白名单
- 路由与 fallback:多个 deployment 映射同一
model_name,主 provider 失败自动切换 - 护栏:PII 检测、第三方护栏服务、自定义 hook
- 可观测性:Langfuse、OpenTelemetry、Prometheus;Admin UI 在
http://localhost:4000/ui - MCP:Agent 通过 MCP 调用网关管理的工具和模型
6. 快速上手
6.1 安装与启动
| |
6.2 多模型 config.yaml
| |
| |
6.3 Docker
| |
生产环境建议挂载 config.yaml,并用 PostgreSQL 持久化 Virtual Key 和 spend logs。
7. 配置要点
7.1 密钥引用
| |
也支持 AWS Secrets Manager、Azure Key Vault 等。
7.2 创建 Virtual Key
| |
8. LiteLLM 与 New API
LiteLLM 和 New API(One API 分支)都是流行的 LLM 中转工具,定位不同:LiteLLM 面向开发者,New API 面向管理员/中转商。
| 维度 | LiteLLM | New API |
|---|---|---|
| 形态 | Python 库 + Proxy | Go 服务 + Web UI |
| 侧重 | fallback、负载均衡、LangChain 集成、细粒度预算 | 用户系统、兑换码、渠道管理、倍率计费 |
| 配置 | YAML / 环境变量 | 网页操作 |
| 模型 | 国际主流更新快 | 国内模型适配好 |
| Python SDK | 有 | 无 |
| Guardrails / MCP | 有 | 通常无 |
选 LiteLLM:写 AI 应用、要高可用 fallback、对接 Prometheus/Langfuse、本地/云端切换。
选 New API:做 Key 分发中转、团队额度管理、不想写 YAML、国内模型为主。
9. CLI 常用命令
| |
10. 小结
LiteLLM 用 OpenAI 兼容接口统一 100+ LLM,提供 SDK 和 AI Gateway 两种模式,覆盖密钥管理、成本追踪、负载均衡、fallback 和企业治理。与 New API 相比,更适合开发者做逻辑控制;New API 更适合做资源分发。
Python 网关在 1k RPS 下 P95 约 8ms,2026 年起在推进 Rust 重写以进一步降低延迟。
