跳到主要内容
🚀 推理优化 9 篇文章 · 8 个章节

模块四:推理优化

覆盖 LLM 推理基础、推理引擎核心技术、主流推理框架、量化、Speculative Decoding、PD 解耦架构,以及性能分析与端到端实战。

开始学习

章节目录

理解 LLM 自回归生成的 Prefill/Decode 两阶段、KV Cache 机制和推理关键性能指标
掌握 PagedAttention、Continuous Batching、Prefix Cache 和 Chunked Prefill 四大推理引擎核心技术
深入 vLLM、SGLang、TensorRT-LLM 三大推理框架的架构设计、核心特性和选型决策
掌握 W8A8(SmoothQuant)、INT4(GPTQ/AWQ)、KV Cache 量化和 FP8 量化的原理与选型决策
理解投机解码的核心原理(Draft + Verify)、Self-Draft 方案(Medusa/EAGLE-2)及其收益边界与限制
理解 P/D 混合 Batching 的问题、DistServe/Splitwise 等解耦方案、Goodput 与 SLO 感知调度
建立完整的推理性能指标体系,掌握压测工具和性能分析工具,制定性能回归门禁
掌握推理优化选型决策树、技术叠加注意事项,完成从需求分析到上线监控的端到端部署实战

学习建议

前置要求

前置知识模块 + CUDA 编程基础

  • LLM 推理基础章节帮助理解推理场景的独特挑战
  • 量化和 Speculative Decoding 是当前最热门的推理优化方向
  • 建议结合主流推理框架(如 vLLM)进行实际部署练习