跳到主要内容
分布式训练

第6章:3D 并行与混合训练策略

掌握 TP+PP+DP 的 3D 并行设计、混合精度训练、梯度累积、Activation Checkpointing、MoE 并行和长序列训练

3D并行 混合精度 Activation Checkpointing MoE 长序列训练

本章简介

实际大模型训练往往需要多种并行策略和显存优化技术的组合。本章将它们融会贯通。

3D 并行设计讲解 TP + PP + DP 的通信域划分和拓扑映射原则(TP 在机内 NVLink,PP 跨机 IB,DP 跨节点),并进行设计练习:64 卡(8 节点 × 8 卡)集群的 3D 并行方案。

混合精度训练对比 FP32/FP16/BF16/FP8 的数值范围与精度,解释 BF16 为什么更受大模型青睐,详解混合精度训练流程和 FP8 训练。

梯度累积在有限显存下模拟更大 Effective Batch Size 的技巧及其与分布式训练的配合。

Activation Checkpointing通过只保存部分激活值、需要时重新计算来节省显存,分析 Selective Checkpointing 策略的 trade-off。

MoE 并行介绍 Expert Parallelism、All-to-All 通信和 MoE + DP + TP + PP 的组合策略。

长序列训练覆盖 Ring Attention / Ulysses / Context Parallel 的工程实现。