CUDA基础知识点梳理1

2023年12月6日修改

主要整理了N多年前（2013年）学习CUDA的时候开始总结的知识点，好长时间不写CUDA代码了，现在LLM推理需要重新学习CUDA编程，看来出来混迟早要还的。

1.CUDA

解析：2007年，NVIDIA推出CUDA（Compute Unified Device Architecture，统一计算设备架构）这个编程模型，目的是为了在应用程序中充分利用CPU和GPU各自的优点，实现CPU/GPU联合执行。这种联合执行的需要已经在最新的集中编程模型（OpenCL，OpenACC，C++ AMP）中体现出来了。

2.并行编程语言和模型

解析：使用比较广泛的是为可扩展的集群计算设计的消息传递接口（Message Passing Interface，MPI）和为共享存储器的多处理器系统设计的OpenMP。目前，很多HPC（High-Performance Computing）集群采用的都是异构的CPU/GPU节点模型，也就是MPI和CUDA的混合编程，来实现多机多卡模型。目前，支持CUDA的编程语言有C，C++，Fortran，Python，Java [2]。CUDA采用的是SPMD（Single-Program Multiple-Data，单程序多数据）的并行编程风格。

3.数据并行性，任务并行性

解析：任务并行性通常对应用进行任务分解得到。例如，对一个需要做向量加法和矩阵-向量乘法的简单应用来说，每个操作可以看作一个任务。如果这两个任务可以独立地执行，那么就能得到任务并行性。

4.CUDA对C中函数声明的扩展

解析：

代码块

（1）__device__ float DeviceFunc()：在设备上执行，并且只能从设备上调用。​
（2）__global__ float KernelFunc()：在设备上执行，并且只能从主机上调用。​
（3）__host__ float HostFunc()：在主机上执行，并且只能从主机上调用。​

说明：如果在函数声明时没有指定CUDA扩展关键字，则默认的函数是主机函数。

5.thread，block，grid，warp，sp，sm

解析：

（1）grid、block、thread：在利用CUDA进行编程时，一个grid分为多个block，而一个block分为多个thread。

（2）sp：最基本的处理单元，最后具体的指令和任务都是在sp上处理的。

（3）sm：多个sp加上其它的一些资源（比如，存储资源、共享内存、寄储器等）组成一个sm。

（4）warp：GPU执行程序时的调度单位。目前CUDA的warp大小32，同在一个warp的线程，以不同数据资源执行相同指令。

6.CUDA核函数

解析：kernel函数完整的执行配置参数形式是<<<Dg, Db, Ns, S>>>，如下所示：

（1）参数Dg用于定义整个grid的维度和尺寸，即一个grid有多少个block。

（2）参数Db用于定义一个block的维度和尺寸，即一个block有多少个thread。

（3）参数Ns是一个可选参数，用于设置每个block除了静态分配的shared Memory以外，最多能动态分配的shared memory大小，单位为byte。不需要动态分配时该值为0或省略不写。

（4）参数S是一个cudaStream_t类型的可选参数，初始值为零，表示该核函数处在哪个流之中。

7.CUDA存储系统

解析：每个线程拥有独立的寄存器(register)和局部存储器(local memory)；每个线程块拥有独立的共享存储器(shared memory)；所有线程都可以访问全局存储器(global memory)，以及只读存储器常量存储器(constant memory)和纹理存储器(texture memory)。如下所示：

（1）寄存器(register)

（2）局部存储器(local memory)

（3）共享存储器(shared memory)

eg：shared 数据类型变量名;

（4）全局存储器(global memory)

（5）常量存储器(constant memory)

eg：constant 数据类型变量名;

（6）纹理存储器(texture memory)

CUDA基础知识点梳理1​

CUDA基础知识点梳理1