综合面经
AI Infra 综合面经题库 (2)
AI Infra 面试真题,涵盖推理优化、训练优化、算子优化、高性能计算等方向
推理优化 训练优化 算子优化 高性能计算
基础知识
- 请介绍 Flash Attention 的核心原理及实现思路
- CPU 按列遍历一个行优先存储的矩阵相比按行遍历,性能为何会显著下降?具体是哪个性能指标发生了劣化?
- GPU 矩阵转置操作中使用 Shared Memory 有何优势?
- Flow Matching 模型的预测目标是什么?如何理解以数据样本 x0 为条件的条件速度场(conditional velocity)?
- 如何计算 QwenImage 中的 time shift?
- Weight-Only 量化有哪些方案?实现 Weight-Only 量化 CUDA kernel 时如何优化访存?是否了解 Marlin kernel?
- Megatron 中序列并行(SP)的实现方式是什么?
- DeepSpeed ZeRO Stage 1 与 Stage 2 在通信量上有何差异?论文描述与代码实现之间是否存在差距?
- 多 GPU 通信场景下 NVSHMEM 与 NVLink 有什么区别?
PyTorch 编程题
- 实现 Multi-Head Attention(共 3 道变体)
- 实现 Flash Attention v1
- 编写 Flow Matching Model 采样过程的伪代码
算法题
- 快速排序
- 寻找两个有序数组的中位数
- 下一个排列
- 二叉树中的最大路径和
- Path Sum III
- 给定若干点的数轴坐标数组和固定数量的等长线段,求线段最少需要多长才能覆盖全部点
- 前 K 个高频字符串(词频相同时按字典序升序排列)
- 给定初始字符串 s,每次将字符串向右旋转一位并拼接到末尾(长度每次翻倍),求无限扩展后第 N 个位置的字符
- 两根手指置于 26 个小写字母组成的键盘上,求敲出给定字符串 s 所需的最少移动距离