- DeepSeek R1 采用了什么注意力优化方案?
- 介绍 Transformer 的整体结构。
- 当前主流大模型架构相比早期有哪些变化?
- GRPO 有哪些改进方法?是否了解 GSPO?
- 有哪些常见的 KV Cache 优化方法?
- 介绍项目(背景、亮点、负责内容、遇到的问题与解决方案、技术选型原因、训练数据量、GPU 数量与训练时长、团队组成)。
- 你认为实习项目中某个技术点是否有更好的实现方式?该方案的优缺点分别是什么?
- 手写实现 Multi-Head Attention,并说明 Masked 矩阵应在哪一步引入。