Torch2同时添加了新的后端Triton(注2),大致可以理解为类似于Python领域专用的语言,对中间表示进行处理, 接着通过这些中间表示进行优化。最终用IR与GPU相关的中间表示生成代码。如果以CUDA为例,写一个矩阵相乘,如果使用Triton的方法,在某些硬件上能够达到CUDA的90%。若要支持新算子,Torch也有编译的开源栈,能够把一些算子变成Triton的中间表示。实际上,对于AMD与ASIC /DSA 来说,只需要添加一个在Triton上的后端代码生成过程。 因此,Torch2更好地支持了模型编译,这也削弱了CUDA的壁垒。