T5 其他联想实习一面 2026年4月17日

联想 AI Infra 实习一面

联想 AI Infra 实习一面面试真题，涵盖AI Infra等方向

基础知识

DeepSeek R1 采用了什么注意力优化方案？
介绍 Transformer 的整体结构。
当前主流大模型架构相比早期有哪些变化？
GRPO 有哪些改进方法？是否了解 GSPO？
有哪些常见的 KV Cache 优化方法？

项目经历

介绍项目（背景、亮点、负责内容、遇到的问题与解决方案、技术选型原因、训练数据量、GPU 数量与训练时长、团队组成）。
你认为实习项目中某个技术点是否有更好的实现方式？该方案的优缺点分别是什么？

编程题

手写实现 Multi-Head Attention，并说明 Masked 矩阵应在哪一步引入。