T0 大厂百度一面 2026年4月17日

百度 AI Infra 一面 (3)

百度 AI Infra 一面面试真题，涵盖训练优化、高性能计算等方向

训练优化高性能计算

强化学习

Trust Region 方法与 PPO 之间的关系
PPO 属于 on-policy 还是 off-policy？为什么需要引入 importance sampling？
PPO 中 clip 机制在优势函数 A 为正值和负值时分别如何限制上下界？
PPO 的损失函数如何计算？广义优势估计（GAE）的计算方式及 lambda 参数对方差和偏差的影响
GRPO 的损失计算方式，序列级别损失如何分配到每个 token？序列级别平均与批次级别平均的区别
其他 GRPO 变体（如 DAPO、GSPO、GFPO 等）的特点
Agentic RL 的基本概念与应用

分布式训练

训练过程中优化器状态、梯度、模型参数各自的显存占比
FSDP 与 DeepSpeed ZeRO Stage 1/2/3 的对比

项目经历

项目介绍及技术方案，如何将大语言模型与具体应用场景结合，评测方式与指标结果

编程题

二叉树的层序遍历，并记录每个节点所在的层级（LeetCode 102 变体）