Nvidia PTX 指令理解

5月29日修改
2024年7月15日创建
5111
5469
主要 cuda & PTX version
CUDA 版本
开始支持
Compute Capability
PTX ISA version
NV driver
点评
CUDA 8
P4 / P40
sm_61
PTX 5.0
r361
PTX 5.0 与 6.0 之间没有小版本
CUDA 9
V100
sm_70
PTX 6.0
r384
V100 是载入史册的版本
CUDA 10
T4
sm_75
PTX 6.3
r400
一代推理神卡
CUDA 11
A100
sm_80
PTX 7.0
r445
大模型的神卡
CUDA 11.8
RTX 4090
L4 / L40
sm_89
PTX 7.8
r520
支持不带加速 feature H100,sm_90
CUDA 12
H100
H200 / GH200
sm_90a
PTX 8.0
r525
adds wgmma and setmaxnreg
CUDA 12.7
B200
GB200
sm_100
sm_100a
PTX ISA 8.6
r565
CUDA 12.8
5090
sm_120
PTX ISA 8.7
r570
cuda 硬件约束
开始支持
Compute Capability
PTX ISA version
max
thread
max
warp
max
block
max
thead/block
2048 / 32 = 64