第4章：模型并行——张量并行与序列并行

本章简介

当单个层的参数或激活值就超出单卡显存时，数据并行无能为力，需要将层内的矩阵运算切分到多卡——这就是张量并行（TP）。

张量并行原理详解 Megatron-LM 的 TP 方案：Column Parallel Linear（按列切分权重）、Row Parallel Linear（按行切分权重）、Attention 层的多头天然切分、FFN 层的 TP 切分，以及 AllReduce/AllGather 通信操作的插入位置。重点理解为什么 TP 通常限制在单机内（NVLink 带宽要求）。

**序列并行（SP）**解决 Non-Tensor-Parallel 区域（LayerNorm、Dropout）的激活值冗余问题，沿序列维度切分激活值，将通信从 AllReduce 变为 ReduceScatter + AllGather，分析激活显存节省。

GQA/MQA 下的 TP 切分讨论 KV Head 数量 < TP 数量时的复制与分配策略。

动手实验：阅读 Megatron-LM 源码，画出一个 Transformer Block 在 TP=4 下的切分图。

本章简介

搜索