AIInfra前置基础
第2章:数学基础
建立 AI Infra 所需的线性代数、概率论和微积分直觉,理解 GEMM tiling、Softmax、反向传播和混合精度训练背后的数学原理
线性代数 概率论 微积分 数学基础
本章简介
本章建立后续学习所需的数学直觉,不追求严格的数学推导,而是聚焦”够用且能关联到工程实践”的程度。
线性代数部分重点掌握矩阵运算和维度推导直觉(看到 (B, S, H) × (H, V) 能立刻知道结果维度),理解分块矩阵运算(GEMM tiling 的数学基础)和 SVD 的低秩近似直觉(为后续 LoRA、MLA 做准备)。
概率论与统计部分覆盖 Softmax 的概率解释、交叉熵损失推导和 KL 散度(理解 Speculative Decoding 正确性证明的前提)。
微积分部分了解链式法则(反向传播的数学基础)、梯度消失/爆炸的直觉,以及为什么混合精度训练中梯度会溢出。