Please enable Javascript to view the contents

模型并行训练技术

 ·  ☕ 3 分钟

1. 数据并行

训练步骤:

  1. master 设备加载模型,并将模型参数复制到每个 worker 设备
  2. master 设备按照 batch 维度划分训练数据,将每个 batch 传递给每个 worker 设备
  3. 每个 worker 设备进行训练
  4. master 设备汇总每个 worker 设备的梯度,更新模型参数
  5. master 设备广播模型参数到每个 worker 设备,准备下一个 batch 训练

核心思想:

将训练数据按 batch 维度划分,分发到多个 worker 设备上并行计算,从而加速训练过程。每个 worker 完全复制了模型参数,独立进行前向和反向传播计算。最终通过单个 master 设备汇总所有 worker 的梯度,统一更新模型参数并广播回 worker。

适用场景:

  • 大规模数据集的训练场景

特点:

  • 模型参数量相对较小,可在单 GPU 上加载
  • 硬件资源要求相对较低,多 GPU 服务器即可
  • 通信开销较小,主要是梯度同步
  • 适合大多数 CV/NLP 任务的小模型训练

2. 张量并行

训练步骤:

  1. 将模型的某些张量(如权重矩阵、激活值等)按行或列划分到不同的设备上
  2. 在前向传播时,每个设备计算被分配到本设备的那部分张量的运算
  3. 不同设备之间需要进行激活值的切分和集合操作,以传递部分结果给下一个处理设备
  4. 所有设备计算完成后,汇总每个设备的梯度,更新对应的模型张量参数。
  5. 将更新后的模型张量参数分发回各个设备,准备进行下一个 batch 的训练。

核心思想:

将单个层或权重矩阵按行/列划分到不同的 worker 设备上并行计算。这是一种极细粒度的模型并行方式,可以最大化利用所有设备的计算能力,但同时也增加了大量的通信开销。不同 worker 需要频繁切分和集合中间激活值与梯度。

适用场景:

  • 极大型模型,且单层参数量巨大的场景,GPT-3 等十亿参数量级的大语言模型

特点:

  • 需要集群提供大量 GPU 显存资源
  • 通信开销最大,需频繁传递中间结果
  • 要合理设计张量划分策略,降低开销

3. 流水线并行

特点:

  1. 将整个模型按层划分为多个连续的阶段(stage),每个阶段由一个设备负责计算。
  2. 在每个训练迭代开始时,第一个设备获取一个 batch 的输入数据,并执行前向计算。
  3. 第一个设备将计算出的中间激活值(activations)传递给第二个阶段的设备。
  4. 第二个设备接收到激活值后,基于这个输入继续执行前向计算,并将结果传递给下一个阶段,如此类推。
  5. 直到最后一个阶段完成前向计算,得到最终的输出。
  6. 基于输出,计算损失函数,并执行反向传播。
  7. 每个阶段在反向传播时,计算本阶段所需的梯度,并将上游梯度传递给前一个阶段。
  8. 所有阶段计算完成后,将各自的梯度汇总,更新对应的模型参数。
  9. 将更新后的模型参数分发到对应的设备,准备进行下一个 batch 的训练迭代。

核心思想:

将模型划分为多个连续的阶段,每个阶段由一个 worker 设备负责。多个 worker 能同时参与计算不同 batch 的前向/反向传播,形成流水线式的并行,从而提高总体吞吐量。不同阶段需要在设备间切分传递激活值和梯度,实现了模型并行与流水线并行的融合。

适用场景:

  • 适用于序列数据的长模型训练

特点:

  • 模型可相对较大,但每阶段占用显存较小
  • 依赖集群提供足够设备资源
  • 通信开销适中,主要在阶段切换时传递数据
  • 合理划分阶段可最大化流水线并行效率

微信公众号
作者
微信公众号