- 大模型RAG 场景、数据、应用难点与解决
- 0 使用场景
- 1 RAG的难点
- 1.1 数据难点: 文档种类多
- 1.2 数据难点:不同文档结构影响,需要不同的切片方式
- 1.3 数据难点: 内部知识专有名词不好查询
- 1.4 用户提问的随意性 + 大众对RAG的定位混乱
- 1.5 公域与私域知识混淆难定位
- 1.6 新旧版本文档同时存在
- 1.7 多条件约束失效
- 1.8 全文/多文类意图失效
- 1.9 复杂逻辑推理
- 1.10 金融行业公式计算
- 1.11 人工搜索效率低下
- 1.12 长下文长度
- 1.13 向量检索的弊端
- 2 知识库文档预处理
- 2.1 使用 TXT / Markdown 等格式化文件,并按照要点排版
- 2.2 减少文件中冲突的内容,分门别类存放数据
- 2.3 减少具有歧义的句子
- 2.4 减少单个文件的大小,减少文件中的特殊符号
- 2.5 结构复杂的先根据大模型以问答对的形式输出
- 2.6 对文档合理分块
- 2.7 数据清洗
- 3 文档智能分块与解析
- 3.1 文档版面布局(Layout)分析
- 3.2 图片的信息抽取
- 4 搜索架构、索引构建、Embedding
- 4.1 Embedding 选择与比较
- 4.2 向量检索:层次索引
- 4.3 向量检索:假设的Query与文档问题生成
- 4.4 检索时利用丰富的上下文信息
- 4.4.1 chunk窗口检索
- 4.4.2 多层次Child / Parent 文档检索
- 4.5 混合检索:利用ES
大模型RAG 场景、数据、应用难点与解决
大模型RAG 场景、数据、应用难点与解决
2024年8月19日修改
作者:悟乙己
放一段RAG解释:
RAG(Retrieval-Augmented Generation)检索增强生成,即大模型LLM在回答问题或生成文本时,会先从大量的文档中检索出相关信息,然后基于这些检索出的信息进行回答或生成文本,从而可以提高回答的质量,而不是任由LLM来发挥。
附件不支持打印
在早些 【 悟乙己:想自己利用OpenAI做一个文档问答的话...... ?】笔者看到了非常多文档问答的技术实践,技术路线大同小异,不过笔者在实践过程中恍然, 垃圾进,垃圾出 的定律在文档问答同样存在,所以,手上的文档该如何整理会让召回提升呢?
在【 队长:对于大模型RAG技术的一些思考 】也有一些吐槽:即使基于单篇文档回答,它们(ChatDoc,WPS AI)在我们垂直领域的文档的幻想问题还是很严重。但是输出的答案不认真看的话,确实挺惊艳。例如问个操作步骤问题,文档压根没这个内容,但是它一步步输出的极其自信。反正最后就想感慨一下,RAG确实没有想的那么容易。
附件不支持打印