T0 大厂字节跳动实习一面 2026年4月17日

字节跳动 AI Infra 实习一面 (4)

字节跳动 AI Infra 实习一面面试真题，涵盖训练优化、高性能计算等方向

训练优化高性能计算

基础知识

请阐述 DeepSpeed 框架的核心设计理念和主要功能。
选择 ZeRO Stage 3 的原因是什么？请推导其显存节省的计算公式。
除 DeepSpeed 外，还使用过哪些分布式训练加速框架？它们之间有何区别？
BLIP 与 BLIP-2 的主要区别是什么？当前主流的多模态模型采用什么架构？
Q-Former 的设计原理和作用是什么？

训练优化

内容理解任务的技术路线是什么？如果要训练一个 chart-to-story 模型，数据应如何构造？

项目经历

请介绍你参与的核心项目。

编程题

实现整数平方根函数（LeetCode 69），并讨论可能的优化方法。