第4章：量化 - AIInfraGuide

本章简介

量化是推理优化中”用精度换性能”的核心技术，本章系统覆盖从基础概念到工程选型的完整链路。

量化基础介绍对称/非对称量化、Per-tensor/Per-channel/Per-group 量化粒度，以及 PTQ（训练后量化）vs QAT（量化感知训练）的对比。

**W8A8 量化（SmoothQuant）**解决 Activation Outlier 导致直接量化效果差的问题，通过数学等价变换将量化难度从 Activation 转移到 Weight。

Weight-only INT4 量化对比 GPTQ（基于 Hessian 信息逐层量化）和 AWQ（基于 Activation 分布保护重要权重）的精度与速度，以及 Marlin Kernel 的高性能实现。

KV Cache 量化（KIVI 2-bit）和 FP8 量化（Hopper 原生 E4M3/E5M2）分别针对长上下文显存和新一代硬件的优化。

量化选型决策树：精度优先 → W8A8，省显存 → INT4，长上下文 → KV Cache 量化，Hopper 架构 → FP8。

动手实验：用 vLLM 对比 FP16 和 AWQ-INT4 的 Throughput 与生成质量。