自然语言处理: RAG优化之Embedding模型选型重要依据：mteb/leaderboard榜

🕗 发布于 2024-11-25 20:49 自然语言处理 embedding 人工智能 chatgpt nlp

本人项目地址大全：Victor94-king/NLP__ManVictor: CSDN of ManVictor

git地址：https://github.com/opendatalab/MinerU

写在前面: 笔者更新不易，希望走过路过点个关注和赞，笔芯!!!

近期RAG 应用不断涌现，它们的性能表现各具特色。尽管我们可以通过多个方面（例如查询改写、图像数据处理、分块策略、元数据管理、密集检索、稀疏检索、结果重排、排序融合、提示词优化以及上下文压缩等）逐步优化这些应用，但在选择 SOTA（State-of-the-Art）模型时，参考开源排行榜依然是必不可少的步骤。mteb/leaderboard 是一个极为有用的资源，它能帮助您了解并选择符合您需求的多语言文本生成模型。例如，在RAG系统中，无论是中文还是英文的向量化模型、重排模型或摘要模型的选择，都可以通过该榜单获得直观且量化的参考依据。

MTEB Leaderboard

MTEB（Multilingual Text-to-Text Evaluation Benchmark）是一个多语言文本嵌入的评估基准，旨在评估和比较不同多语言文本生成模型的性能。排行榜页面展示了各种模型在多个任务上的表现，这些任务可能包括但不限于翻译、摘要、问答等。

https://huggingface.co/spaces/mteb/leaderboard
C-MTEB（Chinese Massive Text Embedding Benchmark）中文语义向量评测基准
评测任务：包括涵盖112种语言的58个数据集

在 MTEB 的排行榜页面上，可以看到：

不同模型的名称 ：列出参与评估的各种模型。
各项任务的得分 ：每个模型在不同任务上的性能评分。
综合排名 ：根据各项任务的得分对模型进行综合排名。

这个排行榜页面对于研究人员和开发者非常有用，因为它提供了：

模型性能的直观对比 ：帮助选择最适合特定任务的模型。
最新进展的跟踪 ：了解当前多语言文本生成领域的最新进展和技术趋势。
基准测试的参考 ：为新模型的开发和评估提供基准。

如何使用

查看模型性能 ：浏览排行榜，了解不同模型在各个任务上的表现。
获取模型信息 ：点击模型名称或链接，可以跳转到模型的详细页面，获取更多信息和使用方法。
参与评估 ：如果你有自己的模型，可以按照 MTEB 的评估标准提交模型进行测试，加入排行榜。

了解任务相关概念

TASK CATEGORY（任务类别）

枚举值	中文翻译	含义解释
s2s	句子到句子	任务涉及将单个句子转换或处理成另一个句子。
s2p	句子到段落	任务涉及将单个句子转换或处理成段落。
p2p	段落到段落	任务涉及将段落转换或处理成另一个段落。

TASK TYPE（任务类型）

枚举值	中文翻译	含义解释
Retrieval	检索	从大量数据中检索出相关信息。
Reranking	重排	根据某种标准重新排序数据。
STS	语义文本相似度	评估两个文本之间的语义相似度。
Summarization	摘要	生成文本的简短摘要。
InstructionRetrieval	指令检索	检索与特定指令相关的信息。
Speed	速度	评估处理或响应的速度。
BitextMining	双语文本挖掘	从双语文本中挖掘信息。
Classification	分类	将数据分配到预定义的类别中。
MultilabelClassification	多标签分类	为数据分配多个类别标签。
Clustering	聚类	将数据分组，使得同一组内的数据点相似度高。
PairClassification	配对分类	对成对的数据进行分类。

TASK SUBTYPE（任务子类型）

枚举值	中文翻译	含义解释
Article retrieval	文章检索	从大量文章中检索出与查询相关的文档。
Conversational retrieval	对话检索	检索与对话上下文相关的信息或回复。
Dialect pairing	方言配对	识别和匹配不同方言之间的对应关系。
Dialog Systems	对话系统	构建能够与用户进行自然对话的系统。
Discourse coherence	话语连贯性	评估或生成连贯、逻辑一致的长篇话语。
Language identification	语言识别	识别文本所使用的语言。
Linguistic acceptability	语言可接受性	评估文本是否符合语言学的规范。
Political classification	政治分类	根据政治倾向对信息进行分类。
Question answering	问答	回答用户提出的问题。
Sentiment/Hate speech	情感/仇恨言论	识别文本中的情感倾向或仇恨言论。
Thematic clustering	主题聚类	将文本根据主题进行分组。
Scientific Reranking	科学重排	对科学文献或信息进行重新排序。
Claim verification	事实核查	验证声明或信息的真实性。
Topic classification	主题分类	将文本按照主题进行分类。
Code retrieval	代码检索	检索与编程问题相关的代码片段。
Cross-Lingual Semantic Discrimination	跨语言语义区分	区分不同语言中相似词汇的语义差异。
Textual Entailment	文本蕴含	判断一个句子是否能够从另一个句子逻辑上推导出来。
Counterfactual Detection	反事实检测	识别和处理反事实或假设性陈述。
Emotion classification	情感分类	对文本中表达的情感进行分类。
Reasoning as Retrieval	推理检索	通过检索相关信息来辅助推理过程。
Duplicate Detection	重复检测	识别和处理重复或相似的内容。

C-MTEB（Chinese Massive Text Embedding Benchmark）榜单是专门用来评估中文Embedding模型的多任务混合评测榜单，包含了Classification、Clustering、Pair Classification、Reranking、Retrieval、STS六种任务类型，共35个公开数据集。

其中， Retrieval作为检索场景下最常用、最重要的测试任务 ，被广泛应用与大模型应用的落地场景，Retrieval任务包括查询语句和语料库，对于每个查询，从语料库中查询最相似的top-k个文档，使用BEIR相同的设置，nDCG@10是主要指标。

Retrieval是C-MTEB中的一个任务方向，共包含8个 中文文本数据集 ，涉及医疗、政策、电商、娱乐等各个方面。数据集主要有三部分组成：query、corpus、dev，其中query为中文问题，corpus为中文文档，包括了query的回答，该任务主要就是从海量corpus中检索出与query最为相关的内容。

Retrieval任务的8个子任务 ：

Ecom：中文电商领域检索任务；
Medical：中文医疗领域检索任务；
Covid：中文政策文件类检索任务；
Video：中文娱乐视频领域检索任务；
T2：来源于搜索引擎的段落排序中文基准测试；
Dureader：来源于百度搜索引擎的段落检索任务；
Mmarco：中文微软问答文摘检索测试；
Cmedqa2：中文社区医疗问答测试

原文地址：https://blog.csdn.net/victor_manches/article/details/144009455

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：手机文件可以打印出来吗
下一篇：【Verilog】第三章作业

APIRouter
作为路由器的区别，对于编写结构良好、可维护性高的应用程序至关重要。将相关的路由逻辑分组到不同的路由器中，每个路由器负责特定的功能模块。支持依赖注入，使得路由器可以拥有自己的依赖，这有助于进一步模块化和
阅读更多2024-11-25
【CSP CCF记录】201812-1第15次认证小明上学
一道分情况讨论的水题
阅读更多2024-11-25
微知-如何通过lspci指定某个deviceid查看pcie设备？(lspci -d 15b3:和lspci -d :1021 )
注意是需要添加：否则会报错。
阅读更多2024-11-25
电商拍立淘按图搜索API接口系列，文档说明参考
拍立淘是阿里巴巴旗下淘宝平台提供的一项基于图像识别技术的购物应用功能，允许用户通过拍照或上传图片来快速找到相似的商品。为了满足开发者的需求，淘宝开放平台提供了拍立淘按图搜索API接口，使得开发者可以将
阅读更多2024-11-25
mysql-分析并解决可重复读隔离级别发生的删除幻读问题
由于事务 A 持有 customer_id = 200 范围内的所有记录的行锁和间隙锁，事务 B 的删除操作将被阻塞，直到事务 A 提交或回滚。事务 A 再次查询 customer_id = 200
阅读更多2024-11-25
【MySQL】MySQL数据库基础
【MySQL】MySQL数据库基础
阅读更多2024-11-25
AIVA 技术浅析（五）：使用的自然语言处理（NLP）技术浅析
AIVA 虽然是一个音乐生成系统，但其核心依赖于许多 NLP 技术，包括序列建模、语言模型、词嵌入、注意力机制、生成对抗网络、多模态学习等。这些技术帮助 AIVA 捕捉音乐作品中的细节和模式，生成高质
阅读更多2024-11-25
Go与黑客(第一部分)
本篇内容是根据2021年5月份#205 Hacking with Go音频录制内容的整理与翻译Natalie 和 Mat 从 2 位安全研究人员的角度探讨了 Go 中的黑客行为。 Joakim Ken
阅读更多2024-11-25
渗透实录-01
一次测试中遇到一个有趣的站点，写出来与君分享。后利用任意文件读取在其他站点也复现成功，代码比较有年代感，漏洞应该比较多，时间关系没有深挖，留给下一个有缘人吧。
阅读更多2024-11-25
CTFHUB--yeeclass-web
复现平台为一个完整类论坛网页，题目给了服务端完整代码。
阅读更多2024-11-25