阿里云 eRDMA 测试及 PD 分离应用部署📅 2026年01月17日 · ☕ 4 分钟PD 分离部署场景下,经常会采用异构型号的显卡,跨机进行部署模型,这会导致跨机通信压力倍增。通常会借助 RDMA 设备加速 kvcache 在不同节点之间的传输,以获得更低的 FTTL。本篇将介绍如何测试 eRDMA 设备,并部署 PD 分离应用。 1. 驱动 1.1 安装驱动 安装驱动 1 2 3 4 5 6 apt-get update -y
vLLM 部署 PD 分离应用📅 2025年09月20日 · ☕ 5 分钟1.为什么要 PD 分离部署大模型应用 在大模型推理的过程中,有两个串行阶段: 处理全量的输入上下文,生成 KV Cache(Prefill 阶段) 增量生成新的 token(Decode 阶段) 这两个阶段对资源的需求不一样。Prefill 阶段要计算大量的 KV Cac
什么是 PD 分离📅 2024年09月08日 · ☕ 1 分钟1. 定义 LLM 推理过程中存在着两个截然不同的阶段,PD 分离就 计算密集型的 Prefill 阶段, LLM 处理所有用户的 input,计算出对应的 KV Cache 显存密集型的 Decode 阶段, 顺序的产生一个个的 token,每次访存只计算一个 token 2. 指标 2.1 prefill 性能评估指标 TTFT(Time To First Toke