模型并行训练技术 – 陈少文的网站

Please enable Javascript to view the contents

模型并行训练技术

📅 2024年04月04日 · ☕ 3 分钟

1. 数据并行

训练步骤:

master 设备加载模型，并将模型参数复制到每个 worker 设备
master 设备按照 batch 维度划分训练数据，将每个 batch 传递给每个 worker 设备
每个 worker 设备进行训练
master 设备汇总每个 worker 设备的梯度，更新模型参数
master 设备广播模型参数到每个 worker 设备，准备下一个 batch 训练

核心思想:

将训练数据按 batch 维度划分，分发到多个 worker 设备上并行计算，从而加速训练过程。每个 worker 完全复制了模型参数，独立进行前向和反向传播计算。最终通过单个 master 设备汇总所有 worker 的梯度，统一更新模型参数并广播回 worker。

适用场景：

大规模数据集的训练场景

特点：

模型参数量相对较小，可在单 GPU 上加载
硬件资源要求相对较低，多 GPU 服务器即可
通信开销较小，主要是梯度同步
适合大多数 CV/NLP 任务的小模型训练

2. 张量并行

训练步骤:

将模型的某些张量(如权重矩阵、激活值等)按行或列划分到不同的设备上
在前向传播时，每个设备计算被分配到本设备的那部分张量的运算
不同设备之间需要进行激活值的切分和集合操作，以传递部分结果给下一个处理设备
所有设备计算完成后，汇总每个设备的梯度，更新对应的模型张量参数。
将更新后的模型张量参数分发回各个设备，准备进行下一个 batch 的训练。

核心思想:

将单个层或权重矩阵按行/列划分到不同的 worker 设备上并行计算。这是一种极细粒度的模型并行方式，可以最大化利用所有设备的计算能力，但同时也增加了大量的通信开销。不同 worker 需要频繁切分和集合中间激活值与梯度。

适用场景：

极大型模型，且单层参数量巨大的场景，GPT-3 等十亿参数量级的大语言模型

特点：

需要集群提供大量 GPU 显存资源
通信开销最大，需频繁传递中间结果
要合理设计张量划分策略，降低开销

3. 流水线并行

特点:

将整个模型按层划分为多个连续的阶段(stage)，每个阶段由一个设备负责计算。
在每个训练迭代开始时，第一个设备获取一个 batch 的输入数据，并执行前向计算。
第一个设备将计算出的中间激活值(activations)传递给第二个阶段的设备。
第二个设备接收到激活值后，基于这个输入继续执行前向计算，并将结果传递给下一个阶段，如此类推。
直到最后一个阶段完成前向计算，得到最终的输出。
基于输出，计算损失函数，并执行反向传播。
每个阶段在反向传播时，计算本阶段所需的梯度，并将上游梯度传递给前一个阶段。
所有阶段计算完成后，将各自的梯度汇总，更新对应的模型参数。
将更新后的模型参数分发到对应的设备，准备进行下一个 batch 的训练迭代。

核心思想:

将模型划分为多个连续的阶段，每个阶段由一个 worker 设备负责。多个 worker 能同时参与计算不同 batch 的前向/反向传播，形成流水线式的并行，从而提高总体吞吐量。不同阶段需要在设备间切分传递激活值和梯度，实现了模型并行与流水线并行的融合。

适用场景：

适用于序列数据的长模型训练

特点:

模型可相对较大，但每阶段占用显存较小
依赖集群提供足够设备资源
通信开销适中，主要在阶段切换时传递数据
合理划分阶段可最大化流水线并行效率

作者

微信公众号