跳到主要内容
T3 芯片/硬件 遂原科技 实习 一面

遂原科技 AI Infra 实习 一面

遂原科技 AI Infra 实习一面面试真题,涵盖推理优化、算子优化等方向

推理优化 算子优化

以下为遂原科技 AI Infra 实习一面考察内容。

项目经历

  1. 实习经历深入提问
  2. 项目经历深入提问

量化相关

  1. 量化策略的选择依据:为何选用 INT8 量化,A100 与 H100 对不同量化精度的支持情况
  2. 量化对象是模型权重还是 KV-Cache,scale 参数如何确定
  3. 量化后是否进行过精度损失的评测

算子开发

  1. Triton 算子的实现逻辑,包括分块等策略
  2. 对比所用的官方 baseline 选择及数据类型
  3. 性能提升数据的来源,动态分块策略与算子配置
  4. 是否考虑过使用 CUDA 替代 Triton 进行算子开发,选择 Triton 的原因
  5. 是否做过 profiling,内存吞吐等性能指标表现如何,后续有何优化思路

推理优化

  1. Attention 模块在整个系统端到端延迟中所占比例
  2. Decode 阶段属于 compute bound 还是 memory bound,KV-Cache 量化提升的是哪方面性能
  3. A100 的理论显存带宽上限