Posts
什么是 FLOPs
· ☕ 1 分钟
1. 关于 FLOPs FLOPs(Floating Point Operations Per Second)指的是每秒执行的浮点数运算次数。 具体地说: 一次浮点加法:如 a + b,被计为一次浮点运算。 一次浮点乘法:如 a * b,也被计为一次浮点运算。 其他基本浮点运算:如除法和平方根,也可以被计为一次浮

什么是 PD 分离
· ☕ 1 分钟
1. 定义 LLM 推理过程中存在着两个截然不同的阶段,PD 分离就 计算密集型的 Prefill 阶段, LLM 处理所有用户的 input,计算出对应的 KV Cache 显存密集型的 Decode 阶段, 顺序的产生一个个的 token,每次访存只计算一个 token 2. 指标 2.1 prefill 性能评估指标 TTFT(Time To First Toke

Kubernetes 下的 DLRover 工作流程分析
· ☕ 13 分钟
本文使用的 DLRover 版本是 0.3.7 1. DLRover Operator 1.1 启动 ElasticJob 和 ScalePlan 的控制器 实现代码: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 // 创建 ElasticJob 的控制器 if err = controllers.NewElasticJobReconciler(mgr, masterImage).SetupWithManager(mgr); err != nil { setupLog.Error(err, "unable to create controller", "controller", "ElasticJob") os.Exit(1) } // 创建 ScalePlan 的控制器 if err = controllers.NewScalePlanReconciler(mgr).SetupWithManager(mgr); err != nil { setupLog.Error(err, "unable to create controller", "controller", "ScalePlan") os.Exit(1) } // 启动控制器 if err := mgr.Start(ctrl.SetupSignalHandler()); err != nil { setupLog.Error(err, "problem running manager") os.Exit(1) } 这部分代码是

NVIDIA GPU 核心与架构演进史
· ☕ 8 分钟
1. 产品线 GeForce 面向游戏玩家,提供强大的图形处理能力、先进的游戏技术。 常见的有 NVIDIA GTX 系列、高端的 RTX 系列、Titan 系列。 Quadro 面向专业市场,如设计师、工程师、科学家和内容创作者。 常见的有 Quadro P 系列,高端的 Quadro RTX 系列 Tesla 面向数据中心和高性能计算(HPC)市场,

分布式训练中的数据并行架构
· ☕ 5 分钟
1. Parameter Server 架构 在 Parameter Server 架构中,集群中的节点被分为两类,参数服务器节点(Parameter Server)和工作服务器节点(Worker)。 1.1 Parameter Server Parameter Server 用于存放模型的参数。 每个参数服务器节点负责管理和更新模型的一部分参数,而每个工作节点则只处理与其对应