分离
vLLM 部署 PD 分离应用
· ☕ 5 分钟
1.为什么要 PD 分离部署大模型应用 在大模型推理的过程中,有两个串行阶段: 处理全量的输入上下文,生成 KV Cache(Prefill 阶段) 增量生成新的 token(Decode 阶段) 这两个阶段对资源的需求不一样。Prefill 阶段要计算大量的 KV Cac