T0 大厂 阿里巴巴 一面 2026年4月17日 阿里巴巴 淘天 AI Infra 一面 (2) 阿里巴巴 AI Infra 一面面试真题,涵盖AI Infra等方向 基础知识 阐述 GRPO 与 PPO 的核心区别。 PPO 中 Clip 操作的具体作用是什么? 重要性采样的作用有哪些?除了与 Clip 操作结合限制更新幅度之外,还有什么其他用途?与使用 KL 散度约束更新的方式有何区别? 什么是马尔可夫性质?请给出形式化定义。 从早期策略梯度算法到 GRPO,发展过程中哪些模块被保留、哪些被舍弃?请梳理演进脉络并说明原因。 项目经历 共享屏幕讲解论文,包括研究背景、任务设定及对应的实际业务场景。 详细说明工作流程、训练方法以及所用公式的推导细节。 编程题 二叉搜索树迭代器(LeetCode 173),要求先阐述思路,给出从暴力到最优的多种解法。 上一篇 阿里巴巴 淘天 AI Infra 一面 (1) 下一篇 百度 AI Infra 一面 (1)