RAGAS 框架:快速自动评估 RAG 质量,还便于集成

2024年8月29日修改
作者:朝亿 | AI 搜索引擎
今天为大家分享RAG的主流评估框架 RAGAS。
附件不支持打印

加载失败,

RAGAS: Automated Evaluation of Retrieval A ugmented Generation
RAGAS: 检索增强生成的自动评估
1.论文概述
Retrieval-Augmented Generation (RAG) 是一种将检索机制与生成模型相结合的方法,首先通过检索与问题相关的文档或知识,然后基于检索结果生成答案或文本。最近的研究表明,RAG可以显著提高各种基准的生成质量。然而,RAG在检索阶段和生成阶段的质量评估也至关重要,这有利于帮助解决RAG的限制问题。
为了解决这个问题,本文设计了一个用于自动评估RAG的框架 RAGAS 。该框架可以评估忠实度(即答案是否能够基于检索到的上下文推出)、答案相关性(即答案是否解决了问题)和上下文相关性(即检索到的上下文是否足够集中)。RAGAS 框架提供了与 llamaindex 和 Langchain 的集成,这两个框架是构建 RAG 解决方案最通用的框架,因此开发人员能够轻松地将 RAGAS 集成到他们的标准工作流中。
2.核心方法
接下来介绍RAGAS提供的几个主要评价指标: Faithfulness Answer relevance、 Context Relevance 。这三个指标主要是基于大模型来进行评测。
2.1 Faithfulness 忠诚度评测
Faithfulness衡量了生成的答案与给定上下文的事实一致性。这个指标对于避免大模型幻觉以及确保检索到的上下文可以作为生成答案的依据非常重要。事实上,RAG系统对于生成文本和给定来源的事实性一致性非常重要,例如在法律领域。