综合面经
AI Infra 综合面经题库 (7)
AI Infra 面试真题,涵盖推理优化、训练优化等方向
推理优化 训练优化
基础知识
- 大模型训练与推理的主流加速方案有哪些?
- 多机多卡分布式训练的基本原理及常见框架
- 是否了解 DeepSpeed?请介绍其核心功能
- 如何从时间和资源两个维度提升训练效率?
- 训练过程中发现速度异常缓慢,应从哪些方面进行分析与排查?
- 多机多卡训练场景下的通信瓶颈及优化方法
- 梯度累加的工作原理是什么?
- 常见的模型量化方法与推理加速方案有哪些?
- 是否有过在 GPU 上对大模型进行训练或推理性能优化的实践经验?
- 训练过程中出现 loss 震荡,可能由哪些因素导致?