Nvidia PTX 指令理解

5月29日修改

2024年7月15日创建

5111

5469

https://docs.nvidia.com/cuda/parallel-thread-execution/

主要 cuda & PTX version

CUDA 版本

开始支持

Compute Capability

PTX ISA version

NV driver

点评

CUDA 8

P4 / P40

sm_61

PTX 5.0

r361

PTX 5.0 与 6.0 之间没有小版本

CUDA 9

V100

sm_70

PTX 6.0

r384

V100 是载入史册的版本

CUDA 10

T4

sm_75

PTX 6.3

r400

一代推理神卡

CUDA 11

A100

sm_80

PTX 7.0

r445

大模型的神卡

CUDA 11.8

RTX 4090

L4 / L40

sm_89

PTX 7.8

r520

支持不带加速 feature H100，sm_90

CUDA 12

H100

H200 / GH200

sm_90a

PTX 8.0

r525

adds wgmma and setmaxnreg

CUDA 12.7

B200

GB200

sm_100

sm_100a

PTX ISA 8.6

r565

CUDA 12.8

5090

sm_120

PTX ISA 8.7

r570

cuda 硬件约束

https://docs.nvidia.com/cuda/cuda-c-programming-guide/index.html#features-and-technical-specifications

开始支持

Compute Capability

PTX ISA version

max

thread

max

warp

max

block

max

thead/block

2048 / 32 = 64