T0 大厂字节跳动 2026年4月17日

字节跳动抖音电商 AI Infra

字节跳动 AI Infra 面试真题，涵盖训练优化等方向

训练优化

训练优化

SFT 阶段使用的模型、数据来源、数据处理方式和训练框架分别是什么？
请详细介绍 PPO 的训练流程，包括数据准备、奖励模型训练、各模型的损失函数设计以及所用的计算资源。
DPO 的训练流程是什么？PPO 与 DPO 有何区别？是否做过对比实验？
如何评估微调后模型的性能提升？
PPO 效果优于 DPO 的原因可能是什么？如何理解多轮 DPO 带来的性能提升？
GRPO 的原理是什么？
为什么有了 SFT 之后还需要 RLHF？

基础知识

CLIP 的训练原理是什么？
请介绍几种常见的深度学习优化器。
Multi-Head Attention 的原理是什么？
LoRA 的原理是什么？秩 r 的大小对模型训练有什么影响？
ViT 的训练原理是什么？
Swin Transformer 的核心设计思想是什么？
Qwen3 中快思考与慢思考的实现原理是什么？

项目经历

请介绍项目中的创新点及其代码实现细节，包括消融实验的设计方案。

编程题

编程题考察。