跳到主要内容
AIInfra前置基础

第2章:数学基础

建立 AI Infra 所需的线性代数、概率论和微积分直觉,理解 GEMM tiling、Softmax、反向传播和混合精度训练背后的数学原理

线性代数 概率论 微积分 数学基础

本章简介

本章建立后续学习所需的数学直觉,不追求严格的数学推导,而是聚焦”够用且能关联到工程实践”的程度。

线性代数部分重点掌握矩阵运算和维度推导直觉(看到 (B, S, H) × (H, V) 能立刻知道结果维度),理解分块矩阵运算(GEMM tiling 的数学基础)和 SVD 的低秩近似直觉(为后续 LoRA、MLA 做准备)。

概率论与统计部分覆盖 Softmax 的概率解释、交叉熵损失推导和 KL 散度(理解 Speculative Decoding 正确性证明的前提)。

微积分部分了解链式法则(反向传播的数学基础)、梯度消失/爆炸的直觉,以及为什么混合精度训练中梯度会溢出。