阿里云 eRDMA 测试及 PD 分离应用部署
· ☕ 4 分钟
PD 分离部署场景下,经常会采用异构型号的显卡,跨机进行部署模型,这会导致跨机通信压力倍增。通常会借助 RDMA 设备加速 kvcache 在不同节点之间的传输,以获得更低的 FTTL。 1. 驱动 1.1 安装驱动 安装驱动 1 2 3 4 5 6 apt-get update -y apt-get install -y pkg-config wget http://mirrors.aliyun.com/erdma/kernel-fix/deb/MLNX_OFED_SRC-debian-24.10-3.2.5.0.tgz tar -xvf MLNX_OFED_SRC-debian-24.10-3.2.5.0.tgz && cd MLNX_OFED_SRC-24.10-3.2.5.0 && curl -O http://mirrors.aliyun.com/erdma/kernel-fix/deb/ofed_debian.conf rm -rf SOURCES/mlnx-ofed-kernel_24.10.OFED.24.10.3.2.5.1.orig.tar.gz wget http://mirrors.aliyun.com/erdma/kernel-fix/deb/mlnx-ofed-kernel_24.10.egs.1.OFED.24.10.3.2.5.1.orig.tar.gz -O