输入“/”快速插入内容

RAG带来蓬勃应用生态

2024年8月12日修改
共识粉碎机|阅读原文
转载请联系原作者取得授权
📌
本期讨论会参与者:
陈将老师, Zilliz AI云平台负责人
彭昊若博士, FileChat创始人,基于RAG能力的垂直领域应用创业
卢向东老师, TorchV创始人,RAG Solution创业,公众号土猛的员外
RandyZhao博士/王睿博士, OnWish创始人,基金经理/分析师的Copilot
徐嘉浩老师(主持人), Neumann Capital投资人
1 RAG进步很快,但有很多正在解决的难点
RAG主要分为四块,每个环节都有正在解决的难点
RAG流程主要分为内容抽取、索引创建、检索召回和Prompt与生成。
内容抽取中的难点包括拓展内容形式,最早是PDF,现在已经发展到各类结构化数据、多模态等。
创建索引中的难点包括怎么做Chunking,怎么进行数据清洗。
检索召回中包 括如何搭配Hybrid Search,采用什么Rerank策略。
Prompt与生成则更与选择的大模型相关。
虽然每一个环节现在都有急需解决的难点,但拆来看每个环节都有提升空间 ,也或多或少知道该如何改善,仍然处于技术爬坡的早期。
数据清洗是目前RAG主要难点
检索的质量很大程度上取决于数据清洗的质量 。换句话说,RAG依赖文档作为知 识库,从知识库里边提取到领域相关的信息做问答,合适的文档直接决定提取的质量。
通过观察实际客户案例, 绝大部分的文档都不能直接应用 。不像行业最初想象的,简单的进行切分后就可以直接使用。
大部分的文档在撰写的时候,面向的是理解自然语言的人。然后在撰写的过程中,也没有对知识进行系统行的分块。这导致在抽取的时候,就很容易造成断章取义,或者信 息过于碎片化。
到具体落地的时候,会有很多到行业/场景/客户的定制化需求,这也使得有些客户觉得没有想象中的智能,还需要RAG厂商来处理,或者自己来处理。
短期解决数据清洗难点的方向
文档一般都有大标题与小标题,本身带有一定结构。 可以将文档转换为树形结构,不同层级的叶节点对应不同层级的信息。
如果企业有自主开发能力,或者对于文档格式有固定要求。可以将文档信息做标注或总结。这样可以避免在召回的时候只召回了非常小的片段信息,而没有把信息整体召回的情况。
在客户端,也可以为客户提供进行标注/修改的易用界面,方便客户在上传信息后进行二次处理。
长期解决数据清洗需要改变生产信息的方式
虽然有很多类似上面的方法,但短期内不容易被通用框架解决,因为各个业务的信息组织方式都是不统一的。长期来看,信息的消费方式可能会影响信息的生产方式。
比如企业内部的知识,未来可能不以文档的形式存在,可能直接以一种类似树形结构或者其他结构化的方式存在。如果能以结构化的形式展开信息,那对于信息进行检索和消费的效率就会非常高。
如果未来消费信息的形式不是以人的眼睛去看,而是基于大模型+RAG的方式消费,那生产方式也会潜移默化地适应消费方式。但过程可能会很长远。