- Nvidia PTX 指令理解
- 主要 cuda & PTX version
- deviceQuery
- Introduction
- 语法体系
- statements
- constant
- state spaces - TODO
- Types - TODO
- 重要 feature 理解
- Tensors & Layout
- tiled mode
- im2col mode - TODO
- Interleave layout
- Tensor-map
- ldmatrix
- 指令语法
- cuda example
- H100 - TMA 引擎
- 附录
- Compute Capability Sheet
- PTX ISA version history
- PTX vs SASS
- 功能性转换
- 数据依赖
- branch divergent & barrier
- 优化
- 使用 Uniform Register
- 溢出到 共享内存
- 内联 PTX 有用吗?
- PTX 之前
Nvidia PTX 指令理解
Nvidia PTX 指令理解
5月29日修改
2024年7月15日创建
5111
5469
主要 cuda & PTX version
CUDA 版本 | 开始支持 | Compute Capability | PTX ISA version | NV driver | 点评 |
CUDA 8 | P4 / P40 | sm_61 | PTX 5.0 | r361 | PTX 5.0 与 6.0 之间没有小版本 |
CUDA 9 | V100 | sm_70 | PTX 6.0 | r384 | V100 是载入史册的版本 |
CUDA 10 | T4 | sm_75 | PTX 6.3 | r400 | 一代推理神卡 |
CUDA 11 | A100 | sm_80 | PTX 7.0 | r445 | 大模型的神卡 |
CUDA 11.8 | RTX 4090 L4 / L40 | sm_89 | PTX 7.8 | r520 | 支持不带加速 feature H100,sm_90 |
CUDA 12 | H100 H200 / GH200 | sm_90a | PTX 8.0 | r525 | adds wgmma and setmaxnreg |
CUDA 12.7 | B200 GB200 | sm_100 sm_100a | PTX ISA 8.6 | r565 | |
CUDA 12.8 | 5090 | sm_120 | PTX ISA 8.7 | r570 | |
cuda 硬件约束
开始支持 | Compute Capability | PTX ISA version | max thread | max warp | max block | max thead/block | |
2048 / 32 = 64 | |||||||