跳到主要内容
T1 大厂/独角兽 蚂蚁 实习 三面

蚂蚁 AI Infra 实习 三面

蚂蚁 AI Infra 实习三面面试真题,涵盖推理优化、算子优化、高性能计算等方向

推理优化 算子优化 高性能计算

本轮侧重考察对大模型推理、量化和 Attention 机制的基础理解深度。

基础知识

  1. 除 W4A16 外,对 INT8、FP8 等业界常见量化方案了解多少?FP8 的两种常见格式分别是什么?在训练和推理中的适用性有何差异?
  2. KV Cache 的大小如何计算?(涉及 batch size、序列长度、head 数、head dim、层数、数据类型等因素)
  3. 大模型推理中为什么需要 KV Cache?其本质作用是什么?
  4. 如何理解 Attention 机制?为什么 Attention 相关的量化比权重量化更难实现?

项目经历

  1. 介绍量化推理 Runtime 项目:基于哪个开源 Runtime 做了修改?W4A16 量化的具体实现细节是什么?精度损失有多少?使用了什么数据集进行评测?
  2. 介绍实习中的核心工作:融合链路的完善与高性能库接入、整网长跑中稳定性问题的定位与修复、轻量级 Timing 工具的设计目的及其在瓶颈定位中的作用。