🚀 推理优化 9 篇文章 · 8 个章节

模块四：推理优化

覆盖 LLM 推理基础、推理引擎核心技术、主流推理框架、量化、Speculative Decoding、PD 解耦架构，以及性能分析与端到端实战。

章节目录

理解 LLM 自回归生成的 Prefill/Decode 两阶段、KV Cache 机制和推理关键性能指标

掌握 PagedAttention、Continuous Batching、Prefix Cache 和 Chunked Prefill 四大推理引擎核心技术

深入 vLLM、SGLang、TensorRT-LLM 三大推理框架的架构设计、核心特性和选型决策

掌握 W8A8(SmoothQuant)、INT4(GPTQ/AWQ)、KV Cache 量化和 FP8 量化的原理与选型决策

理解投机解码的核心原理（Draft + Verify）、Self-Draft 方案（Medusa/EAGLE-2）及其收益边界与限制

理解 P/D 混合 Batching 的问题、DistServe/Splitwise 等解耦方案、Goodput 与 SLO 感知调度

建立完整的推理性能指标体系，掌握压测工具和性能分析工具，制定性能回归门禁

掌握推理优化选型决策树、技术叠加注意事项，完成从需求分析到上线监控的端到端部署实战

前置知识模块 + CUDA 编程基础