PD – 陈少文的网站

vLLM 部署 PD 分离应用

📅 2025年09月20日 · ☕ 5 分钟

1.为什么要 PD 分离部署大模型应用在大模型推理的过程中，有两个串行阶段：处理全量的输入上下文，生成 KV Cache（Prefill 阶段）增量生成新的 token（Decode 阶段）这两个阶段对资源的需求不一样。Prefill 阶段要计算大量的 KV Cac

什么是 PD 分离

📅 2024年09月08日 · ☕ 1 分钟

1. 定义 LLM 推理过程中存在着两个截然不同的阶段，PD 分离就计算密集型的 Prefill 阶段， LLM 处理所有用户的 input，计算出对应的 KV Cache 显存密集型的 Decode 阶段，顺序的产生一个个的 token，每次访存只计算一个 token 2. 指标 2.1 prefill 性能评估指标 TTFT（Time To First Toke