T1 大厂/独角兽 蚂蚁 实习 一面
蚂蚁 AI Infra 实习 一面 (1)
蚂蚁 AI Infra 实习一面面试真题,涵盖推理优化、算子优化、高性能计算等方向
推理优化 算子优化 高性能计算
基础知识
- 如何判断一个算子是否需要优化?具体的判断依据和分析路径是什么?(热点分析、瓶颈类型判定:算力瓶颈 / 访存瓶颈 / 调度开销)
- 面对一个尚未量化的模型,应如何系统地推进量化工作?(模型结构分析、部署目标确定、量化粒度选择、校准方式选择、精度与性能的迭代验证)
- AWQ 等量化方式在增加了反量化步骤后,为什么整体推理仍然可以实现加速?
- 静态图和动态图各有什么特点?为什么通常需要将动态图转为静态图后再进行融合优化?转换本身的开销如何处理?
- vLLM 在推理调度和 KV Cache 管理方面的核心设计思路是什么?
项目经历
- 实习中遇到过哪些有难度的问题?(如 OOM、长轮次推理中的显存异常增长与随机崩溃,排查链路与修复方案)
- 实习中开发的 Timing 插件底层实现是什么?为什么不直接使用 Nsight / NCU 等 Profiling 工具?
- 不同模型在本地部署和量化时是否存在显著差异?
- 图优化的选取策略和开发流程是怎样的?
编程题
- 复制带随机指针的链表。