第5章：模型并行——流水线并行

本章简介

流水线并行（PP）将模型的不同层分配到不同设备，是跨机扩展的主要手段。本章重点理解不同调度策略如何减少 Pipeline Bubble。

流水线并行原理解释将模型层间切分到多卡的思想，以及朴素 PP 的核心问题：Bubble（流水线气泡）导致大量 GPU 空转。

流水线调度策略逐一分析三种方案：GPipe（微批次流水线）、1F1B（One Forward One Backward，减少 Bubble）、Interleaved 1F1B（虚拟 Stage 进一步降低 Bubble），包括每种策略下的 GPU 利用率公式和 Bubble 比例。

PP 的工程挑战涵盖 Stage 间的跨机激活值/梯度传输、不同 Stage 的负载均衡问题、Embedding 层和 Loss 层的特殊处理。

动手实验：画出 4 Stage、8 Micro-batch 下 GPipe 和 1F1B 的时间线图，计算 Bubble 比例。