加载失败，

从原理到代码理解语言模型训练和推理

飞书用户2749

从原理到代码理解语言模型训练和推理

💾

要理解大语言模型（LLM），首先要理解它的本质，无论预训练、微调还是在推理阶段，核心都是next token prediction，也就是以自回归的方式从左到右逐步生成文本。

什么是token？

token是指文本中的一个词或者子词，给定一句文本，送入语言模型前首先要做的是对原始文本进行tokenize，也就是把一个文本序列拆分为离散的token序列

附件不支持打印

•

其中，tokenize是在无标签的语料上训练得到的一个token数量固定且唯一的分词器，这里的token数量就是大家常说的词表，也就是语言模型知道的所有tokens。

•

当我们对文本进行分词后，每个token可以对应一个embedding，这也就是语言模型中的embedding层，获得某个token的embedding就类似一个查表的过程

附件不支持打印

从原理到代码理解语言模型训练和推理​