- 在编辑器中手写实现 MGA(Multi-head Group Attention),要求包括 init、forward 及注意力层的完整代码。
- 若无法完整实现,描述从输入到输出的完整计算流程。
- 是否阅读过 vLLM 和 SGLang 的底层源码?对其架构有何理解?
- KV Cache 有哪些加载方式?
- PD 分离(Prefill-Decode 分离)机制的作用是什么?如何实现?
- 是否使用 vLLM 部署过模型?实测吞吐量为多少?
- 介绍 MTP(Multi-Token Prediction)机制的原理与作用。