加载失败,

大模型上下文长度扩展中的检索增强技术简述

2024年8月12日修改
哈工大SCIR|阅读原文
转载请联系原作者取得授权
📌
笔记作者: 刘议骏,徐阳
转载须标注出处: 哈工大SCIR
背景介绍
基于Transformer的语言模型在众多自然语言处理任务上都取得了十分优异的成绩,在一些任务上已经达到SOTA的效果。但是,经过预训练后,模型能够较好处理的序列长度就固定下来。而当前的众多场景往往需要处理很长的上下文(如:大的代码仓库、书籍等长文档的摘要、few-shot等输入较长的in-context learning场景等等),其长度超过了模型预训练时使用的长度,无法一次性输入模型,导致语言模型无法充分利用长输入中完整的知识,因而性能受到制约。
针对这一问题,研究者们提出了多种检索的方法,从全部的历史上文中检索所需的相关token,放入有限的窗口内计算attention,使得模型能够利用短的输入窗口处理长的序列。
方法概述
受预训练的限制,模型能够较好处理的序列长度相对固定,通常为2048、4096等等。在不改变attention计算机制的前提下,很难保证在模型能力损失较小的同时,显著扩展模型能够处理的上下文长度。并且,在长文本上训练的代价也很高,直接在长文本上从头训练一个窗口长度很长的模型较为困难。于是,我们希望模型能够在有限的处理窗口中能够关注长上下文中关键的token,获取其中的信息,从而充分利用长文本中的知识,提升处理长文本的能力。
附件不支持打印

加载失败,