跳到主要内容
T1 大厂/独角兽 蚂蚁 实习 一面

蚂蚁 AI Infra 实习 一面 (2)

蚂蚁 AI Infra 实习一面面试真题,涵盖推理优化、训练优化、算子优化等方向

推理优化 训练优化 算子优化

基础知识

  1. W8A8、W4A16 分别代表什么?为什么权重量化到 4-bit 时,激活值在大多数场景下仍需保持较高精度?
  2. 均匀量化与非均匀量化各有什么特点?非均匀量化在计算复杂度、scale/zero point 存储开销及硬件加速适配方面有哪些代价?
  3. 如何分析推理链路的性能瓶颈?最有效的优化手段是什么?如果优化后仍与目标性能存在差距,差距主要来源于哪些方面?
  4. 如何判断一组算子是否适合进行融合?判断标准有哪些?(算子链长度、出现频次、依赖关系、中间节点输出是否被其他分支引用)
  5. 性能 Profiling 时重点关注哪些指标?(总执行时间拆分、Warp Divergence、多流场景下的流水线效率)

项目经历

  1. 介绍单算子优化的实践:如何将手写实现替换为高性能库实现?如何进行单测和整网测试?
  2. 描述多轮推理过程中的稳定性问题定位与修复经历(如随机崩溃和 OOM 的根因分析)。
  3. 在静态图中如何筛选出适合融合的算子组合?

编程题(CUDA)

  1. 实现一个 Histogram 算子:输入为一组取值范围 0-9 的整数,输出每个桶的计数。讨论朴素实现(原子操作)的性能问题,以及通过 Shared Memory 局部直方图归约的优化方案。