T2 AI 独角兽 MiniMax 实习 二面
MiniMax AI Infra 实习 二面
MiniMax AI Infra 实习二面面试真题,涵盖训练优化、高性能计算等方向
训练优化 高性能计算
项目经历提问
- 请分享你在实习中参与的项目,着重描述你遇到的最大技术难题以及取得的优化成果
理论问答
- DeepSpeed ZeRO 的三个阶段(Stage-1 / Stage-2 / Stage-3)各自对哪些状态进行了切分?它们在通信量和显存节省上有何递进关系?
- 训练大模型时,你使用过哪些并行方案?数据并行、张量并行和流水线并行的设计思想与适用条件分别是什么?
- 假设需要训练一个 70B 参数量级的模型,如何粗略计算单张 GPU 所需的显存量?
- LoRA 的核心思想是什么?为什么通过低秩矩阵分解可以大幅降低需要更新的参数数量?
- 在 LoRA 中,降维矩阵 A 和升维矩阵 B 的初始化方式为何不同?这样设计的目的是什么?
- 除了 ZeRO 系列之外,你还了解哪些用于大模型训练的优化技术?
代码题
- 实现一个滑动窗口求最大值的算法