跳到主要内容
T1 大厂/独角兽 小米 校招

小米 AI Infra 校招

小米 AI Infra 校招面试真题,涵盖推理优化等方向

推理优化

编程题

  1. 在编辑器中手写实现 MGA(Multi-head Group Attention),要求包括 init、forward 及注意力层的完整代码。
  2. 若无法完整实现,描述从输入到输出的完整计算流程。

推理优化

  1. 是否阅读过 vLLM 和 SGLang 的底层源码?对其架构有何理解?
  2. KV Cache 有哪些加载方式?
  3. PD 分离(Prefill-Decode 分离)机制的作用是什么?如何实现?
  4. 是否使用 vLLM 部署过模型?实测吞吐量为多少?
  5. 介绍 MTP(Multi-Token Prediction)机制的原理与作用。