T0 大厂 百度 一面
百度 AI Infra 一面 (3)
百度 AI Infra 一面面试真题,涵盖训练优化、高性能计算等方向
训练优化 高性能计算
强化学习
- Trust Region 方法与 PPO 之间的关系
- PPO 属于 on-policy 还是 off-policy?为什么需要引入 importance sampling?
- PPO 中 clip 机制在优势函数 A 为正值和负值时分别如何限制上下界?
- PPO 的损失函数如何计算?广义优势估计(GAE)的计算方式及 lambda 参数对方差和偏差的影响
- GRPO 的损失计算方式,序列级别损失如何分配到每个 token?序列级别平均与批次级别平均的区别
- 其他 GRPO 变体(如 DAPO、GSPO、GFPO 等)的特点
- Agentic RL 的基本概念与应用
分布式训练
- 训练过程中优化器状态、梯度、模型参数各自的显存占比
- FSDP 与 DeepSpeed ZeRO Stage 1/2/3 的对比
项目经历
- 项目介绍及技术方案,如何将大语言模型与具体应用场景结合,评测方式与指标结果
编程题
- 二叉树的层序遍历,并记录每个节点所在的层级(LeetCode 102 变体)