LLM细节盘点(2)：位置编码

2024年7月25日修改

01 概览

目前一些主流开源模型所使用的位置编码如下表，可以看出：

RoPE已经成为LLM的标配；

随着数据质量、数量及训练最大长度的增加，RoPE的 base base 也逐渐从早期的经典配置 104 10^4 ，普遍增加至 106 10^6 的数量级，以获得更好的长文本处理能力；

外推方法从早期的PI，逐渐演变成NTK系列（Yi/chatglm3-4）和YARN（DeepSeek-v2、Qwen2-128K）。

位置编码	Model	Version	base
Alibi	Baichuan	7B-base/chat 13B-base/chat
	Baichuan2	13B-base/chat/V2
RoPE	Baichuan2	7B-base/chat	10,000
	LLaMA	7B/13B/30B/65B	10,000
	LLaMA2	7B-base/chat 13B-base/chat 70B-base/chat	10,000
	LLaMA3	8B-base/chat 70B-base/chat	500,000
	chatglm	6B-chat	10,000
	chatglm2	6B-chat	10,000
		6B-32K	10,000（PI外推/16）
	chatglm3	6B-base/chat	10,000
		6B-32K	500,000（NTK）
		6B-128K	5,000,000（NTK）
	glm4	9B-base	10,000
		9B-chat	5,000,000（NTK）
		9B-1M	100,000,000（NTK）
	Yi	9B-base/chat	10,000
		6B-base/chat 34B-chat	5,000,000（NTK）
		9B-200K 34B-200K	10,000,000（NTK）

LLM细节盘点(2)：位置编码​