LLM细节盘点(2):位置编码
LLM细节盘点(2):位置编码
2024年7月25日修改
01 概览
目前一些主流开源模型所使用的位置编码如下表,可以看出:
1.
RoPE已经成为LLM的标配;
2.
随着数据质量、数量及训练最大长度的增加,RoPE的 base base 也逐渐从早期的经典配置 104 10^4 ,普遍增加至 106 10^6 的数量级,以获得更好的长文本处理能力;
3.
外推方法从早期的PI,逐渐演变成NTK系列(Yi/chatglm3-4)和YARN(DeepSeek-v2、Qwen2-128K)。
位置编码 | Model | Version | base |
Alibi | Baichuan | 7B-base/chat 13B-base/chat | |
| Baichuan2 | 13B-base/chat/V2 | |
RoPE | Baichuan2 | 7B-base/chat | 10,000 |
| LLaMA | 7B/13B/30B/65B | 10,000 |
| LLaMA2 | 7B-base/chat 13B-base/chat 70B-base/chat | 10,000 |
| LLaMA3 | 8B-base/chat 70B-base/chat | 500,000 |
| chatglm | 6B-chat | 10,000 |
| chatglm2 | 6B-chat | 10,000 |
| | 6B-32K | 10,000(PI外推/16) |
| chatglm3 | 6B-base/chat | 10,000 |
| | 6B-32K | 500,000(NTK) |
| | 6B-128K | 5,000,000(NTK) |
| glm4 | 9B-base | 10,000 |
| | 9B-chat | 5,000,000(NTK) |
| | 9B-1M | 100,000,000(NTK) |
| Yi | 9B-base/chat | 10,000 |
| | 6B-base/chat 34B-chat | 5,000,000(NTK) |
9B-200K 34B-200K | 10,000,000(NTK) | ||