拆分Transformer注意力,韩国团队让大模型解码提速20倍
拆分Transformer注意力,韩国团队让大模型解码提速20倍
2024年7月18日修改
只要将注意力切块,就能让大模型解码提速20倍。
来自韩国科学技术研究院、LG和DeepMind的研究人员,提出了一种新的Transformer架构。
不仅获得了更快的推理速度,内存开销也大幅度下降。
附件不支持打印
研究人员详细分析了原始Transformer推理速度慢的原因——
原始Transformer每生成一个Token就要访问一次全局KV缓存 ,消耗了大量资源。
实际上,这种方法的GPU 有效利用率不到1% ,其余的99%都用在了内存访问上。
附件不支持打印
加载失败,