分布式训练
第5章:模型并行——流水线并行
理解流水线并行的原理、GPipe/1F1B/Interleaved 调度策略和 Bubble 分析
流水线并行 PP GPipe 1F1B Pipeline Bubble
本章简介
流水线并行(PP)将模型的不同层分配到不同设备,是跨机扩展的主要手段。本章重点理解不同调度策略如何减少 Pipeline Bubble。
流水线并行原理解释将模型层间切分到多卡的思想,以及朴素 PP 的核心问题:Bubble(流水线气泡)导致大量 GPU 空转。
流水线调度策略逐一分析三种方案:GPipe(微批次流水线)、1F1B(One Forward One Backward,减少 Bubble)、Interleaved 1F1B(虚拟 Stage 进一步降低 Bubble),包括每种策略下的 GPU 利用率公式和 Bubble 比例。
PP 的工程挑战涵盖 Stage 间的跨机激活值/梯度传输、不同 Stage 的负载均衡问题、Embedding 层和 Loss 层的特殊处理。
动手实验:画出 4 Stage、8 Micro-batch 下 GPipe 和 1F1B 的时间线图,计算 Bubble 比例。