[论文笔记]DAPR: A Benchmark on Document-Aware Passage Retrieval

🕗 发布于 2024-10-13 11:09 论文阅读

引言

今天带来论文DAPR: A Benchmark on Document-Aware Passage Retrieval的笔记。

本文提出了一个基准：文档感知段落检索(Document-Aware Passage Retrieval,DAPR)以及介绍了一些上下文段落表示的方法。

为了简单，下文中以翻译的口吻记录，比如替换"作者"为"我们"。

1. 总体介绍

图 1：DAPR 的示例实例。为了找到与查询相关的段落，检索器需要利用文档上下文，在本例中这意味着名词"地点"的共指解析。

我们提出了文档感知段落检索(DAPR)任务，其中检索需要考虑关联的文档上下文以返回相关段落。一个例子如图1所示。在这种情况下，用户询问在特定场地演奏过的音乐家。然而，相关段落没有提及场地名称，而仅提及名词引用，检索器需要理解这些用于查找正确段落的文档上下文。

我们对SOTA检索器进行错误分析，发现主要错误是由于缺少文档上下文，其中正确的段落缺少共指解析、底层主题的信息。

在实验中，我们通过两种方法向SOTA检索器引入文档上下文来测试扩展SOTA检索器的方法：

使用BM25混合检索；
带有上下文的段落表示，它基于文档上下文来增强段落表示；

2. 相关工作

略

3. DAPR任务和基准

DAPR任务要求系统根据有关(长)文档检索相关段落并对其进行排名。

给定段落集合 $C=\{p_i\}_{i=1}^N$ 和它们关联的文档 $D=\{d_i\}_{i=1}^N$ ，对于查询 $\in Q$ ，检索系统 $\times C \times D \rightarrow \R$ 需要返回前 $K$ 个段落 $R=\{p_1,p_2,\cdots,p_K\}$ 。

3.1 NQ-Hard:NaturalQuestions 中的疑难案例

对 SoTA 段落检索器（DRAGON+、SPLADEv2 和 ColBERTv2）和 BM25 的自然问题进行了错误分析。发现53.5%的错误案例是由于没有检索到相关段落上下文造成的。

4. 实验

引入文档上下文

BM25混合检索

使用BM25检索整个文档，使用神经网络检索器检索段落。

排名融合 融合了来自BM25检索器和神经检索器的相关性分数，计算为：
$s_\text{convex}(q,p,d) = \alpha \hat s_\text{BM25}(q,p) + (1-\alpha) \hat s_\text{neural}(q,d)$
其中 $\alpha \in [0,1]$ 是融合权重； $\hat s$ 表示归一化的相关性得分，计算为：
$\hat s(q,c) = \frac{s(q,c) - m_q }{M_q - m_q}$
其中 $c$ 表示候选段落/文档； $m_q$ 和 $M_q$ 分别是最小和最大值。

层次检索 通过两个步骤： (1)文档检索和(2)检索到的文档中的段落检索。

上下文化的段落表示

这里的段落可以认为是文本块。

前置标题 简单增加标题到同一文档每个段落的开头。使用空格来分隔标题文本和原始段落文本。标题通常准确地显示了文档的主体，但可能此类信息并不总是可用。

前置文档关键短语 通过添加从文档中提取的关键短语来绕过标题可用性问题。使用TopicRank算法来提取每个文档的前10个关键短语，然后通过分号连接起来。最后用空格分隔符添加到段落文本中。

共指解析 通过添加共指信息来注释段落。将整个文档输入到共指消解模型中以获得提及先行词映射。对于每个提及，其预测的先行词显示在文档中最早的位置中，并用括号附加到它后面。例如，图1中的段落将被注释为"在场地(TheHalfMoon)表演或录制的艺术家…"。我们只考虑跨段共指。

总结

⭐ 作者提出了可以直接将长文本的全局文本信息拼接到切分后的文本块前面。全局文本信息有(1) 文档的标题 (2) 文档的关键短语，使用TopicRank算法抽取 (3) 共指解析，通过跨段共指解析消解来处理文本块中的代词。

原文地址：https://blog.csdn.net/yjw123456/article/details/142811194

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：望繁信科技创始人索强出席2022福布斯中国·青年海归菁英100人评选颁奖典礼
下一篇：线性回归：深入解析与实践

开发指南072-图片热点
/处理跳转： area.getAttribute('href');平台支持使用图像导航界面，例如展示如下一张图，用户点击对应位置触发对应动作。热点数据通过后台接口获取（注意处理权限，没有权限的热点不生
阅读更多2024-10-13
使用机器学习边缘设备的快速目标检测
这项机器学习研究探讨了一种低成本的边缘设备，该设备与具有计算机视觉功能的嵌入式系统集成，以提高目标检测和分类的推理时间和精度。研究的主要目标是减少推理时间并降低功耗，以支持一个竞技型类人机器人的嵌入式
阅读更多2024-10-13
【Windows】【DevOps】Windows Server 2022 安装ansible，基于powershell实现远程自动化运维部署入门到放弃！
文件URL：https://www.python.org/ftp/python/3.13.0/python-3.13.0-amd64.exe。直接拿linux主机测试ansible连接windows
阅读更多2024-10-13
C# 中循环的应用说明
一循环的概念说明二、循环类型三、循环控制语句四、无限循环
阅读更多2024-10-13
Linux `vmstat` 命令详解
vmstat（Virtual Memory Statistics）是 Linux 系统中的一个监控工具，用于报告系统的虚拟内存、进程、CPU 活动等信息。它能帮助用户了解系统的整体性能状况，尤其是内存
阅读更多2024-10-13
Linux下多任务编程（网络编程2）
本文介绍解决accpet和recv相互阻塞的问题，可以用多线程并发外也可以用epoll I/O多路复用的方式解决。
阅读更多2024-10-13
[单master节点k8s部署]37.微服务（一)springCloud 微服务
微服务架构的一个重要特点是，它与开发中使用的具体或无关。每个微服务都可以使用最适合其功能需求的语言或技术来实现。例如，一个微服务可以用Java编写，另一个微服务可以用Python、Go、Node.js
阅读更多2024-10-13
Zynq(3)使用外设MIO/EMIO
使用MIO/EMIO实现流水灯，着重介绍Zynq IP核的配置，解读vitis中的c语言程序，介绍MIO与EMIO的区别。
阅读更多2024-10-13
笔试算法总结
思路很简单，但是当时做题提交的时候，通过率总是18%。不知道为啥，后面我改成了Long类型，然后就通过了全部用例。（易错1：第一次提交没考虑0的情况）使用 StringBuilder 模拟栈的行为，通
阅读更多2024-10-13
快速学习一个算法，Transformer模型架构
它的主要思想是在同一时间通过多个独立的注意力头（Attention Head）来关注序列中不同部分的信息，然后将这些信息综合起来，生成更丰富的表示。自注意力机制的目的是对输入序列中的每个元素计算一个输
阅读更多2024-10-13