跳到主要内容
综合面经

AI Infra 综合面经题库 (7)

AI Infra 面试真题,涵盖推理优化、训练优化等方向

推理优化 训练优化

基础知识

  1. 大模型训练与推理的主流加速方案有哪些?
  2. 多机多卡分布式训练的基本原理及常见框架
  3. 是否了解 DeepSpeed?请介绍其核心功能
  4. 如何从时间和资源两个维度提升训练效率?
  5. 训练过程中发现速度异常缓慢,应从哪些方面进行分析与排查?
  6. 多机多卡训练场景下的通信瓶颈及优化方法
  7. 梯度累加的工作原理是什么?
  8. 常见的模型量化方法与推理加速方案有哪些?
  9. 是否有过在 GPU 上对大模型进行训练或推理性能优化的实践经验?
  10. 训练过程中出现 loss 震荡,可能由哪些因素导致?