加载失败，

大模型上下文长度扩展中的检索增强技术简述

2024年8月12日修改

哈工大SCIR｜阅读原文

转载请联系原作者取得授权

📌

笔记作者：刘议骏，徐阳

转载须标注出处：哈工大SCIR

背景介绍

基于Transformer的语言模型在众多自然语言处理任务上都取得了十分优异的成绩，在一些任务上已经达到SOTA的效果。但是，经过预训练后，模型能够较好处理的序列长度就固定下来。而当前的众多场景往往需要处理很长的上下文（如：大的代码仓库、书籍等长文档的摘要、few-shot等输入较长的in-context learning场景等等），其长度超过了模型预训练时使用的长度，无法一次性输入模型，导致语言模型无法充分利用长输入中完整的知识，因而性能受到制约。

针对这一问题，研究者们提出了多种检索的方法，从全部的历史上文中检索所需的相关token，放入有限的窗口内计算attention，使得模型能够利用短的输入窗口处理长的序列。

方法概述

受预训练的限制，模型能够较好处理的序列长度相对固定，通常为2048、4096等等。在不改变attention计算机制的前提下，很难保证在模型能力损失较小的同时，显著扩展模型能够处理的上下文长度。并且，在长文本上训练的代价也很高，直接在长文本上从头训练一个窗口长度很长的模型较为困难。于是，我们希望模型能够在有限的处理窗口中能够关注长上下文中关键的token，获取其中的信息，从而充分利用长文本中的知识，提升处理长文本的能力。

附件不支持打印

加载失败，

大模型上下文长度扩展中的检索增强技术简述​

大模型上下文长度扩展中的检索增强技术简述