大语言模型-文本检索任务基准 BEIR

🕗 发布于 2024-07-21 05:49 语言模型 人工智能 自然语言处理

BEIR

(A Heterogeneous Benchmark for Zero-shot Evaluation of Information Retrieval Models)
文本检索任务的基准，使用18 个数据集为检索系统的零样本评估提出了一个标准化基准， BEIR 基准上在9个不同领域的检索任务评估 10 种不同的检索方法。

`九个`不同领域的`检索任务`，如下:

1、事实核查（Fact checking）
2、引文预测（Citation prediction）
3、重复问题检索（Duplicate question retrieval）
4、论据检索（Argument retrieval）
5、新闻检索（News retrieval）
6、问题回答（Question Answering）
7、推文检索（Tweet retrieval）
8、生物医学检索（Bio-Medical IR）
9、实体检索（Entity retrieval）

BEIR来评估来自五大架构的十种不同的检索方法，其中的`五大架构`如下：

1、词法（lexical）
2、稀疏（sparse）
3、密集（dense）
4、后期交互（late interaction）
5、重排序（re-ranking）

BEIR来评估的`十种不同的检索方法`，如下：

BM25 (Anserini) https://github.com/castorini/anserini
DeepCT http://boston.lti.cs.cmu.edu/appendices/arXiv2019-DeepCT-Zhuyun-Dai/
SPARTA https://huggingface.co/BeIR/sparta-msmarco-distilbert-base-v1
DocT5query https://huggingface.co/BeIR/query-gen-msmarco-t5-base-v1
DPR (Query) https://huggingface.co/sentence-transformers/facebook-dpr-question_encoder-multiset-base
DPR (Context) https://huggingface.co/sentence-transformers/facebook-dpr-ctx_encoder-multiset-base
ANCE https://huggingface.co/sentence-transformers/msmarco-roberta-base-ance-firstp
TAS-B https://huggingface.co/sentence-transformers/msmarco-distilbert-base-tas-b
ColBERT https://public.ukp.informatik.tu-darmstadt.de/thakur/BEIR/models/ColBERT/msmarco.psg.l2.zip
MiniLM-L6 (CE) https://huggingface.co/cross-encoder/ms-marco-MiniLM-L-6-v2

(1)BEIR基准的十种不同的检索方法在领域上数据集上的表现：

在这里插入图片描述

(1)BEIR基准的十种不同的检索方法的性能开销

在这里插入图片描述

结论：

1、发现没有任何一种方法在所有的数据集上都能持续胜过其他方法。
2、一个模型的领域内性能与它的泛化能力并不相关：用相同的训练数据进行微调的模型可能会有不同的泛化能力。
3、发现性能和计算成本之间的权衡：计算成本高的模型，如重排模型和后期交互模型表现最好。更有效的方法，如基于密集或稀疏嵌入的方法，可以大大低于传统的词汇模型，如BM25的表现。
4、未来的工作需要更好的无偏见的数据集，允许对所有类型的检索系统进行公平的比较。

参考

BEIR: A Heterogeneous Benchmark for Zero-shot
Evaluation of Information Retrieval Models

原文地址：https://blog.csdn.net/weixin_42045968/article/details/140567623

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：基于上下文自适应可变长熵编码 CAVLC 原理详细分析
下一篇：基于STM32的农业大棚温湿度采集控制系统的设计

2024年网络安全（黑客技术）三个月自学手册
网络安全可以基于攻击和防御视角来分类，我们经常听到的 “红队”、“渗透测试” 等就是研究攻击技术，而“蓝队”、“安全运营”、“安全运维”则研究防御技术。走安全行业的工程方向的，技术上面其实有很大的重叠
阅读更多2024-11-15
数据结构Python版
2.3.3 双链表双链表和链表一样，只不过每个节点有两个链接——一个指向后一个节点，一个指向前一个节点。此外，除了第一个节点，双链表还需要记录最后一个节点。每个结点为DLinkNode类对象，包括存储
阅读更多2024-11-15
连接数据库导出数据库信息支持excel pdf html markdown
1. java -jar运行后连接数据库即可，支持多种数据库。2.支持多种导出格式。
阅读更多2024-11-15
【解决】Layout 下创建槽位后，执行 Image 同步槽位位置后表现错误的问题。
开发平台：Unity 6.0编程语言：CSharp编程平台：Visual Studio 2022。
阅读更多2024-11-15
乐理的学习（简谱过渡五线谱）
调号在五线谱开头标注多个“♯”或“♭”每个“♯”或“♭”对应一个音符位置的升降，比如：C大调（无升降）是自然大调的基础形式，不需要额外调号。G大调：在调号中添加一个“F♯”，表示所有的F都要弹F♯。D
阅读更多2024-11-15
CSS回顾-颜色单位详解
本文介绍了 CSS 中的颜色单位相关知识。包括颜色名称、十六进制颜色值、RGB、RGBA、HSL、HSLA 等颜色单位的表示方式、特点及使用场景。还阐述了颜色单位之间（颜色名称与十六进制、十六进制与
阅读更多2024-11-15
Spring Boot中集成Redis与MySQL
用途：将键或简单的值序列化为字符串。适用场景：通常用于键的序列化，确保键在 Redis 中以字符串存储，以便于直接查看和管理。用途：将对象序列化为 JSON 格式的字符串，并支持 JSON 反序列化回
阅读更多2024-11-15
linux配置nginx
状态如果是Active: active (running)则是正常的。
阅读更多2024-11-15
C03S04-Linux网络之软件仓库、SSH和NFS
SSH是一种安全通道协议，主要用于远程登录到服务器、执行远程命令、传输文件以及管理服务器等。默认的端口号是TCP/22。NFS（网络文件系统，Network File System）是一种件系统协议，
阅读更多2024-11-15
无人机飞手在保家卫国上重要性技术详解
无人机飞手通过操作无人机上的通信设备，可以将侦察到的情报信息及时传输给指挥系统，同时也可以接收指挥系统的指令进行任务调整。无人机飞手经过专业培训，不仅掌握了无人机在不同气候、地形条件下的飞行技巧，还具
阅读更多2024-11-15

大语言模型-文本检索任务基准 BEIR

BEIR

九个不同领域的检索任务，如下:

BEIR来评估来自五大架构的十种不同的检索方法，其中的五大架构如下：

BEIR来评估的十种不同的检索方法，如下：

(1)BEIR基准的十种不同的检索方法在领域上数据集上的表现：

(1)BEIR基准的十种不同的检索方法的性能开销

结论：

参考

相关文章

`九个`不同领域的`检索任务`，如下:

BEIR来评估来自五大架构的十种不同的检索方法，其中的`五大架构`如下：

BEIR来评估的`十种不同的检索方法`，如下：