跳到主要内容
推理优化

第4章:量化

掌握 W8A8(SmoothQuant)、INT4(GPTQ/AWQ)、KV Cache 量化和 FP8 量化的原理与选型决策

量化 SmoothQuant GPTQ AWQ FP8 KV Cache量化

本章简介

量化是推理优化中”用精度换性能”的核心技术,本章系统覆盖从基础概念到工程选型的完整链路。

量化基础介绍对称/非对称量化、Per-tensor/Per-channel/Per-group 量化粒度,以及 PTQ(训练后量化)vs QAT(量化感知训练)的对比。

**W8A8 量化(SmoothQuant)**解决 Activation Outlier 导致直接量化效果差的问题,通过数学等价变换将量化难度从 Activation 转移到 Weight。

Weight-only INT4 量化对比 GPTQ(基于 Hessian 信息逐层量化)和 AWQ(基于 Activation 分布保护重要权重)的精度与速度,以及 Marlin Kernel 的高性能实现。

KV Cache 量化(KIVI 2-bit)和 FP8 量化(Hopper 原生 E4M3/E5M2)分别针对长上下文显存和新一代硬件的优化。

量化选型决策树:精度优先 → W8A8,省显存 → INT4,长上下文 → KV Cache 量化,Hopper 架构 → FP8。

动手实验:用 vLLM 对比 FP16 和 AWQ-INT4 的 Throughput 与生成质量。