综合面经 一面
AI Infra 一面
AI Infra 一面面试真题,涵盖算子优化等方向
算子优化
- 请阐述 Roofline 模型的基本原理,如何利用该模型判断一个算子是否已达到计算瓶颈?
- 当训练或推理所使用的 GPU 卡数成倍扩展时,系统最可能在哪些环节出现瓶颈?请分析原因并给出相应的优化或缓解思路。
- GEMM 计算是否一定属于计算瓶颈型算子?若需要对其进行优化,整体思路是什么?
- 在性能调优过程中,如何定位瓶颈并进行检测?你通常使用哪些方法或工具?
- 请介绍你对 Flash Attention 的理解。
- 在 C++ 中,若数组越界写入导致其他数据结构被破坏,且现场保留了 coredump 文件,应如何排查该问题?
- 编程题:手写包含 GQA(Grouped Query Attention)的 Attention 模块实现。