综合面经 2026年4月17日

AI Infra 综合面经题库 (1)

AI Infra 面试真题，涵盖推理优化、训练优化、算子优化、高性能计算等方向

推理优化训练优化算子优化高性能计算

基础知识

Hopper 架构 TMA 的优势是什么？其调用方式如何？数据传输是否需要经过 L1 缓存？
Flash Attention v2 中外层循环为何选择对 Q 进行遍历？Flash Decoding 的 combine kernel 耗时占比大约是多少？
如何分析 MLA decode 的计算访存比？该比值与序列长度、batch size 是否存在关联？
Mooncake 中以 KV-Cache 为中心的 PD 分离方案的设计思路
DiT 推理框架的设计与 LLM 推理框架有哪些异同？
大语言模型的知识蒸馏是否适合在预训练阶段进行？
Diffusion Model 的训练与推理步骤分别是什么？当推理 num_inference_steps 设为 40 时，为何训练的 timesteps 仍需设置为 1000？
请介绍 dLLM（离散化大语言模型），它与自回归（AR）模型有何本质区别？
torch.repeat 与 torch.expand 在功能和内存行为上有何差异？
torchrun 的启动参数有哪些？在 Linux 环境下如何批量终止包含 torchrun 的进程？

实现支持 torch broadcast 语义的 4D tensor elementwise 乘法
给定 A: (1, 256), B: (256, 128), C: (128, 256)，计算 (A * B) * C
Embedding Sparse Feature Pooling：A 为 100 万个离散 ID（范围 0~999），B 为 100 万个 float，计算长度为 1000 的数组 C，其中 C[i] = sum of B[j] for all j where A[j] = i