分布式训练
第4章:模型并行——张量并行与序列并行
掌握 Megatron-LM 的张量并行方案(Column/Row Parallel Linear)和序列并行,理解 TP 的通信约束
张量并行 序列并行 Megatron-LM TP SP
本章简介
当单个层的参数或激活值就超出单卡显存时,数据并行无能为力,需要将层内的矩阵运算切分到多卡——这就是张量并行(TP)。
张量并行原理详解 Megatron-LM 的 TP 方案:Column Parallel Linear(按列切分权重)、Row Parallel Linear(按行切分权重)、Attention 层的多头天然切分、FFN 层的 TP 切分,以及 AllReduce/AllGather 通信操作的插入位置。重点理解为什么 TP 通常限制在单机内(NVLink 带宽要求)。
**序列并行(SP)**解决 Non-Tensor-Parallel 区域(LayerNorm、Dropout)的激活值冗余问题,沿序列维度切分激活值,将通信从 AllReduce 变为 ReduceScatter + AllGather,分析激活显存节省。
GQA/MQA 下的 TP 切分讨论 KV Head 数量 < TP 数量时的复制与分配策略。
动手实验:阅读 Megatron-LM 源码,画出一个 Transformer Block 在 TP=4 下的切分图。