跳到主要内容
T5 其他 Teleai 实习 一面

Teleai AI Infra 实习 一面

Teleai AI Infra 实习一面面试真题,涵盖推理优化、算子优化、高性能计算等方向

推理优化 算子优化 高性能计算

理论基础

  1. CLIP 模型的工作原理和推理时的执行流程是怎样的?
  2. 大模型推理场景中常见的算子优化方向有哪些(例如访存优化、并行化策略等)?
  3. DeepSeek-R1 与一般的基座大语言模型相比有什么不同之处?
  4. 你有没有实际编写过 CUDA 算子的经验?开发的算子在性能方面达到了什么水平?
  5. 如果需要对 vLLM 框架进行功能定制或二次开发,可以从哪些模块或层面入手?
  6. vLLM 和 SGLang 这两个推理框架有哪些差别?SGLang 相比 vLLM 的优势体现在哪里?SGLang 为什么在推理类大模型上表现更好?
  7. 大模型量化技术的基本原理是什么?你是否有过实际部署量化模型的经历?是否研究过 AutoAWQ 的实现代码?
  8. 华为昇腾平台上的 CANN 和 MindIE 框架分别包含哪些核心组件?

开放场景

  1. 如何将 vLLM 适配到自研的模型架构上?
  2. V100 GPU 的显存大小是多少?将 DeepSeek 或 Qwen 的 32B 模型做 INT8 量化后是否可以在 V100 上运行?具体的部署方案是什么?
  3. 在高并发条件下,如何对推理服务进行压力测试以确定其能承受的最大并发量?测试过程中需要重点监控哪些指标(例如 batch size、响应延迟、吞吐量等)?