综合面经
AI Infra 综合面经题库 (1)
AI Infra 面试真题,涵盖推理优化、训练优化、算子优化、高性能计算等方向
推理优化 训练优化 算子优化 高性能计算
基础知识
- Hopper 架构 TMA 的优势是什么?其调用方式如何?数据传输是否需要经过 L1 缓存?
- Flash Attention v2 中外层循环为何选择对 Q 进行遍历?Flash Decoding 的 combine kernel 耗时占比大约是多少?
- 如何分析 MLA decode 的计算访存比?该比值与序列长度、batch size 是否存在关联?
- Mooncake 中以 KV-Cache 为中心的 PD 分离方案的设计思路
- DiT 推理框架的设计与 LLM 推理框架有哪些异同?
- 大语言模型的知识蒸馏是否适合在预训练阶段进行?
- Diffusion Model 的训练与推理步骤分别是什么?当推理 num_inference_steps 设为 40 时,为何训练的 timesteps 仍需设置为 1000?
- 请介绍 dLLM(离散化大语言模型),它与自回归(AR)模型有何本质区别?
- torch.repeat 与 torch.expand 在功能和内存行为上有何差异?
- torchrun 的启动参数有哪些?在 Linux 环境下如何批量终止包含 torchrun 的进程?
CUDA 编程题
- 实现支持 torch broadcast 语义的 4D tensor elementwise 乘法
- 给定 A: (1, 256), B: (256, 128), C: (128, 256),计算 (A * B) * C
- Embedding Sparse Feature Pooling:A 为 100 万个离散 ID(范围 0~999),B 为 100 万个 float,计算长度为 1000 的数组 C,其中 C[i] = sum of B[j] for all j where A[j] = i
PyTorch 编程题
- 实现 LoRA Adapter
算法题
- 实现内存池(需支持类似 new Foo[] / delete[] 的功能)
- C++ 中如何比较两个 float 是否相等?
- 实现 LRU 缓存
- 岛屿数量问题
- 二叉树的层序遍历
- 计算 Hamming Weight
- K-Coverage Intervals 问题