第7章：性能分析与 Benchmark

本章简介

优化效果需要量化验证，本章建立推理场景的完整性能评估体系。

推理指标体系定义完整指标集：QPS、TTFT(P50/P95)、TPOT(P50/P95)、Throughput、显存峰值、GPU 利用率，分析指标间的关联与 trade-off，强调单一指标无法反映全貌。

压测工具覆盖 GenAI-Perf（LLM 指标一站式输出）、Triton Perf Analyzer、自定义压测脚本的设计要点和可复现的 Benchmark 配置管理。

性能分析工具在推理场景下的最佳实践：torch.profiler 算子级分析、Nsight Systems 全链路分析、Nsight Compute Kernel 级下钻。

权威基准介绍 MLPerf Inference（Datacenter）和 LLM Perf 评测趋势。

性能回归门禁制定规则（如 TPOT P95 退化 > 5% 则 Block Merge）、CI 自动化集成和退化定位方法（git bisect + Nsight 对比）。

动手实验：用 GenAI-Perf 输出完整指标报告，模拟性能退化并用 Nsight Systems 定位。