- 请阐述 DeepSpeed 框架的核心设计理念和主要功能。
- 选择 ZeRO Stage 3 的原因是什么?请推导其显存节省的计算公式。
- 除 DeepSpeed 外,还使用过哪些分布式训练加速框架?它们之间有何区别?
- BLIP 与 BLIP-2 的主要区别是什么?当前主流的多模态模型采用什么架构?
- Q-Former 的设计原理和作用是什么?
- 内容理解任务的技术路线是什么?如果要训练一个 chart-to-story 模型,数据应如何构造?
- 请介绍你参与的核心项目。
- 实现整数平方根函数(LeetCode 69),并讨论可能的优化方法。