T1 大厂/独角兽京东实习 2026年4月17日

京东 AI Infra 实习

京东 AI Infra 实习面试真题，涵盖推理优化、训练优化、高性能计算等方向

推理优化训练优化高性能计算

基础知识

请介绍 Qwen 系列模型的架构设计与训练方法。
阐述 PPO、DPO 和 GRPO 三种强化学习算法的区别。
熵、交叉熵与 KL 散度之间有什么联系与区别？
分类任务中为什么通常不使用 MSE 作为损失函数？

训练优化

请分别介绍 DeepSpeed、DDP 与 FlashAttention 的核心功能与原理。
PPO 中优势函数（Advantage）是如何计算的？Critic 模型的更新方式是什么？

推理优化

估算 Qwen3-8B 模型推理时需要多少显存。
RAG（检索增强生成）的完整流程是什么？有哪些可行的优化策略？

实习经历

奖励函数是如何设计的？GRPO 训练前是否有冷启动阶段？

项目经历

项目经历深入考察。

编程题

手写实现 GQA（Grouped Query Attention）。