RAG 系统的评测 --＞ RAGAs(量化 RAG 系统的好坏)

🕗 发布于 2024-11-05 20:44 机器学习 自然语言处理 深度学习 人工智能

在开发RAG系统的过程中，比较头疼的就是怎么评测做出来的系统的好与坏。
人工评测最直观，但是局限性很大，且不够客观。
所以 RAGAs 作为一个很方便的一个测评 RAG 系统的工具而问世。让我们来看看他的真面目吧

Step1:流程

先考虑是否使用本地大模型，
1. 如果使用 SaaS 模式去调用云端大模型，那么很方便，可以直接使用 langchain 官方支持的那几个大模型或 langchain_community 中的接口。记得要用 LangchainLLMWrapper or LangchainEmbeddingsWrapper 包装起来。
2. 如果要使用本地的大模型进行评测，那就要考虑写继承了。简单而言，
  1. 如果直接使用 ragas，那么就需要让模型继承 BaseRagasLLM 和 BaseRagasEmbeddings 。
    1. BaseRagasLLM的generate_text 和 agenerate_text 一定要重写；
    2. BaseRagasEmbeddings 的 embed_text 一定要重写；如果是 embedding 模型，embed_query 和 embed_document 一定要重写
  2. 如果是使用 Langchain ，就得继承 langchain 规定的基类，即继承 LLM 类，实现 _call 方法；嵌入模型同理。
3. 个人建议，
  1. 能用 Langchain 就用 Langchain，不要自己去集成 RAGAs 的基类，因为用 Langchain 的方式，社区支持很多，出错易调错；
  2. 如果是本地部署的大模型，可以费劲的去写基类，对于嵌入模型，如果实在没时间，可以不写基类，用云端的也费不了几块钱。
  3. 测试的时候，记得把温度变成 0，为了测评结果的稳定性

RAGAs 大体的流程如下

首先要生成一个评测集，
1. 其中 question 和 ground_truths 可以是人工的(更准)，也可以驱动大模型去生成。当然如果信不过大模型，又懒得人工去编写，可以把两者结合起来，让大模型作为工具先生成，人工在进行改写和检验。
2. answer 和 contexts 一定要是自己的 RAG 系统生成的。
3. 评测集格式(Dataset 格式)，包含四个列表
  - 一定要保持 contexts 和 ground_truths 格式一致性
```
question: list[str] -> 这个是 RAG 系统希望评测的问题
answer: list[str] -> 有 RAG 系统生成，并提供给用户的答案，即需要评测的答案
contexts: list[list[str]] -> 传入 LLM 并回答问题的上下文
ground_truths:list[list[str]] -> 问题的真实答案，如果是在线测评，忽略；因为无法获取真实的答案数据
```

有了评测数据，接下来的工作就简单了。可以直接使用 evaluate 去评测模型了，这里以四个常用评测指标(忠诚度、召回率、准确率和相关性)为例

from ragas import evaluate
from ragas.metrics import LLMContextRecall, Faithfulness, FactualCorrectness, SemanticSimilarity

eval_results = evaluate(
                    metrics=[
                        Faithfulness(llm=evaluator_llm),
                        FactualCorrectness(llm=evaluator_llm),
                        SemanticSimilarity(embeddings=embed, llm=evaluator_llm),
                        LLMContextRecall(llm=evaluator_llm)
                    ],
                    dataset=test_dataset,
                )

Note:
这里的评估模型和嵌入模型，强烈推荐用第三方的能力强的大模型作为 evaluator。

避免自我评价偏差
客观性和公信力
标准一致性
能力保证

所以，推荐 GPT-4 这种模型，当然 Claude 也可以。

Step2:评价指标

Faithfulness(忠实度)：检查答案是否仅基于给定上下文
FactualCorrectness(准确性)：答案与真实答案的符合程度
SemanticSimilarity(语义相似度)：答案与问题的相关程度
LLMContextRecall(上下文召回)：检索内容的相关性

RAG 系统可以根据不同的标准进行评估，具体取决于它的具体应用。例如

如果 RAG 被用于文本生成，评估准则可能包括生成文本的连贯性、流畅度和相关性。
如果系统被用于信息检索，需求可能包括 准确率、召回率和排序质量
在 QA 应用中，系统可能被评估基于 答案的准确率、完整性以及处理复杂问题的能力

我们将使用 RAGA 的忠实度、相关性、上下文精确率和上下文召回率指标来执行评估。

Faithfulness

它衡量模型的输出对源材料中存在的信息的准确程度。

忠实的回复包含忠实于原始内容的信息，而不引入新的或矛盾的信息。

高忠实度意味着模型没有产生幻觉。
Relevancy

它评估模型的输出对给定查询的处理是如何的好。

一个相关的回应直接回答问题，且包含符合用户需求的信息。

高相关性表示模型理解查询并且提供合适的主题信息
Context Recall

它表示候选句子提取和自然语言推理(NLI)的组合，允许系统估计它正确捕获的数据(正样本，TP)和错误捕捉的数据(负样本，FP).

$\frac{TP}{TP+FN}$
Context Precision

它指的是评价在从所提供的上下文中精确定位并提取与准确回答给定问题相关且必不可少的特定句子方面所起的作用。最终得分是提取出的句子数量与给定上下文中句子总数的比率，用以衡量提取的完整性和准确性。

原文地址：https://blog.csdn.net/weixin_46034279/article/details/143524118

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：一文详解开源ETL工具Kettle!
下一篇：CSS综合练习（学校官网静态网页）

【青牛科技】GC4931P替代A4931/Allegro在水泵、筋膜枪、吸尘器和电动工具中的应用
随着电动设备技术的不断发展，对电机驱动控制器的需求也在不断增加。GC4931P作为一种新型的电机驱动控制器，逐渐被视为A4931/Allegro的替代品。本文将探讨GC4931P在水泵、筋膜枪、吸尘器
阅读更多2024-11-06
软件测试：测试用例详解
一般是数字和字符组合成的字符串，可以包括（下划线、单词缩写、数字等等），但是需要注意的是，尽量不要写汉语拼音，因为拼音的意义可能有好几种，有可能会导致乱码；
阅读更多2024-11-06
通过自然语言表达你的想法。GitHub Spark让任何人都能使用人工智能，为自己创建软件...
我们能否让任何人都能使用人工智能，为自己创建软件？尽管开发者喜欢定制自己的开发环境以提高效率和趣味性，但创建个性化应用程序的复杂性常常阻止他们这样做。如何使个性化软件的创建变得像定制开发环境一样简单?
阅读更多2024-11-06
好看的超清4K视频素材去哪儿找？下载素材资源网站推荐
这个网站的视频素材有详细介绍，包括4K和1080P的标识，且许多素材都可以通过网盘直接下载，特别适合新手创作者。在这个高清、4K视频盛行的时代，要制作出让人眼前一亮的视频内容，超清4K视频素材必不可少
阅读更多2024-11-06
QML项目实战：自定义TextField
1.activeFocusOnPress ：当用户点击 TextField 时，自动将焦点设置到该控件上。2.antialiasing：启用抗锯齿功能，使文本显示更加平滑。3.readOnly：将
阅读更多2024-11-06
架构学习第四周--高可用与NoSQL数据库
负载均衡（），简称LB，是一种服务或基于硬件设备等实现的高可用反向代理技术，负载均衡将特定的业务(web服务、网络流量等分担给指定的一个或多个后端特定的服务器或设备，从而提高了公司业务的并发处理能力、
阅读更多2024-11-06
函数对象笔记
将函数指针传入compare时，编译器并不知道函数是什么。代码中使用C++中的模板，调用使用函数指针调用函数。指向一个函数的指针，可以动态调用不同的函数。，可以如同函数一样被调用。
阅读更多2024-11-06
【Unity基础】粒子系统与VFX Graph的区别
本文介绍了Unity中粒子系统与VFX Graph之间的区别
阅读更多2024-11-06
动态ip如何自动更换ip
在探讨如何自动更换动态IP地址时，我们首先需要理解动态IP的基本概念。IP地址，即互联网协议地址，分配给每台连接到互联网的设备的唯一标识符。与传统静态IP地址不同，动态IP地址是由网络服务提供商（IS
阅读更多2024-11-06
知识课堂——高匿ip在不同业务中的重要作用
高匿IP在网络数据采集、网络营销与推广、在线游戏以及隐私保护与安全等业务中都有着重要的作用。
阅读更多2024-11-06

RAG 系统的评测 --＞ RAGAs(量化 RAG 系统的好坏)

Step1:流程

Step2:评价指标

相关文章