T1 大厂/独角兽小米实习一二面 2026年4月17日

小米 AI Infra 实习一二面

小米 AI Infra 实习一二面面试真题，涵盖推理优化、训练优化、算子优化、高性能计算等方向

推理优化训练优化算子优化高性能计算

一面

项目经历

实习期间的主要工作内容介绍。
千卡规模训练项目的技术方案与实施细节。
竞赛项目经历介绍。

基础知识

Python 中深拷贝与浅拷贝的区别。
C++ 三种智能指针（unique_ptr、shared_ptr、weak_ptr）的特点与使用场景。
写时拷贝（Copy-on-Write）的实现原理。
零拷贝（Zero-Copy）的实现原理。

编程题

实现矩阵转置。

二面

训练优化

大模型分布式训练的完整流程及并行策略选择依据。
介绍常见的分布式并行策略。
张量并行（TP）为何存在按行和按列两种切分方式？各自对应的含义是什么？
Megatron 中序列并行（SP）的设计原理与实现方式。

基础知识

Transformer 架构中包含哪些层和算子？
Encoder 与 Decoder 的结构特点及差异。
FlashAttention 的核心思想与实现机制。
Online Softmax 的计算原理。

算子优化

CUDA 中 Block 是软件概念还是硬件概念？
CUDA 常见的优化方法有哪些？
访存优化有哪些具体策略？
计算与访存如何实现重叠（Overlap）？
L1 Cache 与 L2 Cache 的区别。
共享内存与 L1 Cache 的关系与差异。

高性能计算

C++ 中三种智能指针的区别，shared_ptr 存在的设计动机是什么？
AllReduce 操作的实现原理，有哪些常见的实现方式？
Ring AllReduce 的通信量分析。
Tree AllReduce 相较于 Ring AllReduce 有何优势？

编程题

合并两个有序链表。