输入“/”快速插入内容

RAG带来蓬勃应用生态

2024年8月12日修改

共识粉碎机｜阅读原文

转载请联系原作者取得授权

📌

本期讨论会参与者：

陈将老师， Zilliz AI云平台负责人

彭昊若博士， FileChat创始人，基于RAG能力的垂直领域应用创业​

卢向东老师， TorchV创始人，RAG Solution创业，公众号土猛的员外​

RandyZhao博士/王睿博士， OnWish创始人，基金经理/分析师的Copilot​

徐嘉浩老师（主持人）， Neumann Capital投资人

1 RAG进步很快，但有很多正在解决的难点

RAG主要分为四块，每个环节都有正在解决的难点

•
RAG流程主要分为内容抽取、索引创建、检索召回和Prompt与生成。​

•
内容抽取中的难点包括拓展内容形式，最早是PDF，现在已经发展到各类结构化数据、多模态等。​

•
创建索引中的难点包括怎么做Chunking，怎么进行数据清洗。​

•
检索召回中包 括如何搭配Hybrid Search，采用什么Rerank策略。​

•
Prompt与生成则更与选择的大模型相关。​

•
虽然每一个环节现在都有急需解决的难点，但拆来看每个环节都有提升空间 ，也或多或少知道该如何改善，仍然处于技术爬坡的早期。​

数据清洗是目前RAG主要难点

•
检索的质量很大程度上取决于数据清洗的质量 。换句话说，RAG依赖文档作为知 识库，从知识库里边提取到领域相关的信息做问答，合适的文档直接决定提取的质量。​

•
通过观察实际客户案例， 绝大部分的文档都不能直接应用 。不像行业最初想象的，简单的进行切分后就可以直接使用。​

•
大部分的文档在撰写的时候，面向的是理解自然语言的人。然后在撰写的过程中，也没有对知识进行系统行的分块。这导致在抽取的时候，就很容易造成断章取义，或者信 息过于碎片化。​

•
到具体落地的时候，会有很多到行业/场景/客户的定制化需求，这也使得有些客户觉得没有想象中的智能，还需要RAG厂商来处理，或者自己来处理。 ​

短期解决数据清洗难点的方向

•
文档一般都有大标题与小标题，本身带有一定结构。 可以将文档转换为树形结构，不同层级的叶节点对应不同层级的信息。​

•
如果企业有自主开发能力，或者对于文档格式有固定要求。可以将文档信息做标注或总结。这样可以避免在召回的时候只召回了非常小的片段信息，而没有把信息整体召回的情况。​

•
在客户端，也可以为客户提供进行标注/修改的易用界面，方便客户在上传信息后进行二次处理。​

长期解决数据清洗需要改变生产信息的方式

•
虽然有很多类似上面的方法，但短期内不容易被通用框架解决，因为各个业务的信息组织方式都是不统一的。长期来看，信息的消费方式可能会影响信息的生产方式。​

•
比如企业内部的知识，未来可能不以文档的形式存在，可能直接以一种类似树形结构或者其他结构化的方式存在。如果能以结构化的形式展开信息，那对于信息进行检索和消费的效率就会非常高。​

•
如果未来消费信息的形式不是以人的眼睛去看，而是基于大模型+RAG的方式消费，那生产方式也会潜移默化地适应消费方式。但过程可能会很长远。​

RAG带来蓬勃应用生态​