LLM细节盘点(2):位置编码

2024年7月25日修改
作者:咸鱼王
01 概览
目前一些主流开源模型所使用的位置编码如下表,可以看出:
1.
RoPE已经成为LLM的标配;
2.
随着数据质量、数量及训练最大长度的增加,RoPE的 base base 也逐渐从早期的经典配置 104 10^4 ,普遍增加至 106 10^6 的数量级,以获得更好的长文本处理能力;
3.
外推方法从早期的PI,逐渐演变成NTK系列(Yi/chatglm3-4)和YARN(DeepSeek-v2、Qwen2-128K)。
位置编码
Model
Version
base
Alibi
Baichuan
7B-base/chat
13B-base/chat
Baichuan2
13B-base/chat/V2
RoPE
Baichuan2
7B-base/chat
10,000
LLaMA
7B/13B/30B/65B
10,000
LLaMA2
7B-base/chat
13B-base/chat
70B-base/chat
10,000
LLaMA3
8B-base/chat
70B-base/chat
500,000
chatglm
6B-chat
10,000
chatglm2
6B-chat
10,000
6B-32K
10,000(PI外推/16)
chatglm3
6B-base/chat
10,000
6B-32K
500,000(NTK)
6B-128K
5,000,000(NTK)
glm4
9B-base
10,000
9B-chat
5,000,000(NTK)
9B-1M
100,000,000(NTK)
Yi
9B-base/chat
10,000
6B-base/chat 34B-chat
5,000,000(NTK)
9B-200K 34B-200K
10,000,000(NTK)