- SIMT(Single Instruction, Multiple Threads)的含义与工作原理。
- Occupancy 受哪些因素影响?如何进行调控?
- Bank Conflict 的粒度是多少?
- GEMM 分块大小的选择受哪些因素制约?
- 使用 float4 读写全局内存为何能提升性能?
- 一个 Block 是否可能被调度到不同的 SM 上执行?
- 主流 GPU 型号的 Cache 容量分别是多少?
- Warp Divergence 对性能的具体影响。
- NVIDIA GPU 中指令级并行(ILP)的实现方式。
- 实现 CUDA 矩阵转置。
- 实现向量外积运算。