论文笔记：Pre-training to Match for Unified Low-shot Relation Extraction

Low-shot RE旨在识别样本很少甚至没有样本的新关系。本文提出多选择匹配网络来统一低样本关系抽取。为了填充零样本和小样本关系抽取之间的差距，提出了triplet-paraphrase元训练，利用triplet-paraphrase预训练零样本标签匹配能力，利用元学习范式学习少样本实例概括能力。

Introduction

零样本RE和少样本RE要求模型具备不同的基本能力：零样本RE建立在标签语义匹配能力之上，这要求模型充分利用给定新关系的标签语义，并基于其底层语义匹配关系和查询实例；少样本RE是建立在实例语义概括能力之上，这要求模型通过概括少样本实例的关键信息来快速推广到新的关系。由于零样本RE和少样本RE之间的根本差异，现有的模型都是单独学习来处理两种情况下的RE任务。

本文提出通过回归关系抽取的本质来统一低样本RE。从根本上讲，关系提取可以看做一个多项选择任务，给定上下文中的两个实体，RE系统需要从一组预定义的关系类别中匹配最合适的关系，或者others，即与上述关系均不匹配。其中，完成多项选择匹配所需的信息可以从关系类别名称或从少量实例中概括出来。

基于此，本文提出了多选择匹配网络MCMN来统一低样本RE。如下图所示，MCMN将所有候选关系描述转换为多选择提示，然后将输入实例与多选择实例链接起来，并通过预先训练的编码器来获取输入实例和候选关系的语义表示，最后通过直接匹配关系表示和实例表示进行关系抽取。

为了使MCMN同时具备标签语义匹配能力和实例语义概括能力，引入三triplet-paraphrase元预训练对MCMN进行预训练。其中，包括两个关键部分：

text-triple-text paraphrase模块：可以生成大规模伪关系抽取数据用来预训练MCMN的标签语义匹配能力；
一种元学习风格的训练算法，使MCMN具备实例语义概括能力，可以快速概括不同的关系提取任务。

具体而言，给定大规模原始文本，triplet-paraphrase首先通过OpenIE工具包抽取三元组，然后基于抽取的三元组使用RDF-to-text生成模型生成原始文本的paraphrases。这样，可以通过收集生成的句子和预测的三元组来获得大规模的伪标注数据。这样的语料库可以通过将paraphrases匹配到相应的预测，有效地预训练MCMN的标签语义匹配能力。此外，为了使MCMN具有实例语义概括能力，这种预训练是在元学习范式中进行的。也就是说，每次迭代都要求MCMN学习不同的关系抽取任务，MCMN就不能通过直接记忆特定的目标关系来过度匹配预训练语料库。

主要贡献：

提出MCMN，通过使用多选匹配范式从根本上实现关系抽取；
提出triplet-paraphrase元训练对MCMN进行预训练，使MCMN既具备了标签语义匹配能力，又具备了实例语义概括能力。

Multi-Choice Matching Networks

Multi-choice Prompt

从根本上说，关系提取器可以视为一个多项选择任务，通过直接链接所有关系名称或描述，为每个关系提取任务构造一个多选择提示，形式如下：

[C] rel1 [C] rel2 ... [C] rel N

其中，[C]为分隔符。例如Figure 2 中，将employee_of、ceo_of和others连接在一起，形成多项选择提示“[C] employee of [C] ceo of [C] others [SEP] [e1] Tim Cook [/e1] is the CEO of [e2] Apple [/e2] . [SEP]”。在获得多选项提示后，将其与输入句子一起输入实例编码器

Instance Encoder

编码前，将多选择提示与每个输入实例链接，用[SEP]标志将其分隔，并分别用[e1]、[/e1]、[e2]和[/e2]将头、尾实体包起来。例如Figure 2的示例，编码器的输入为“[CLS] [C] employee of [C] ceo of [C] others [SEP] [e1] Tim Cook [/e1] is the CEO of [e2] Apple [/e2] . [SEP]”，然后通过transformer encoder对整个句子 $x$ 进行编码：

$h_{[CLS]},h_{[C]},...,h_{[SEP]}=H(x)$

Multi-choice Matching and Prediction

多选择匹配模块用来将输入实例匹配到对应的关系。对于每一种关系类型，使用[C]标记的隐藏层状态来表示关系：

$h_{rel_i}=h_{[C]_i}$

其中， $h_{rel_i}$ 表示关系 $i$ ， $h_{[C]_i}$ 表示第 $i$ 个token[C]的隐藏层状态。

对于输入文本，简单地对[e1]和[e2]的隐藏状态取平均值得到实例表示

$X=avg(h_{[e1]},h_{[e2]})$

然后在实例和每个关系之间执行匹配操作：

$D(x,y_i)=\left \| X-h_{rel_i} \right \|_2$

在这个公式中，采用欧氏距离来度量相似度，每个关系对应的概率为

$P(y_i|x;\theta )=\frac{exp(-D(x.y_i))}{\sum_{j=1}^{N}exp(-D(x,y_i))}$

最后选择概率最大的关系 $\widehat{y}$ 作为预测

$\widehat{y}=\underset{i}{argmax}P(y_i|s;\theta )$

Training Loss

$L_{(x,y)}(\theta )=-\sum_{i=1}^{N}I(y_i)logP(y_i|x_i;\theta)$

Training Strategies for Multi-Choice Matching Networks

Triplet-Paraphrase Construction

为了使MCMN具有标签语义匹配能力，需要结合关系句和关系类型的大规模数据进行预训练。但是现有的RE数据集中高度有限的关系类型可能导致特定关系的过拟合，不利于MCMN的推广。Triplet-Paraphrase从原始文本中为MCMN生成大规模的预训练数据。Triplet-Paraphrase模块的总体流程如下图（a）所示，它从大规模的原始文本中提取谓词作为关系描述，然后利用提取的关系三元组生成Paraphrase句子进行进一步的多选择匹配预训练。

关系三元组提取： 大多数完整的句子至少包含一个关系三元组，包括主语、谓语和宾语。句子中的谓语对应的是主语和宾语之间的属性或者关系，可以看做是一种关系的具体表述。为了从开放域文本中提取大规模的三元组，使用OpenIE模型对Wikipedia的文章集合进行抽取。从原始文本中收集所有提取的谓词来表示对应的关系，防止模型过渡拟合特定的关系类型。然后将这些三元组用于Paraphrase生成和预训练。

Paraphrase生成：对于提取出来的三元组，首先用“[H], [R], [T]”将其包装起来，分别对应主语、谓语和宾语，然后输入包装好的三元组文本以生成Paraphrase文本。例如三元组 (an online service, known as, PlayNET)被包装为“[H] an online service [R] known as [T] PlayNET”，然后生成Paraphrase文本playnet is an online service。在生成paraphrase之后，将其与对应的谓词进行匹配，以便进行预训练。

Triplet-Paraphrase Meta Pre-training

预训练batch中的每个实例都包含paraphrase文本和相应的谓词span。如figure 3（a）所示，将当前mini-batch中的所有谓词链接为多选择提示，并按照Training Loss中的损失函数对MCMN进行预训练，其中，当 $y_i$ 是对应的谓词时， $I(y_i)=1$ ，否则 $I(y_i)=0$ 。

Online Task Adaptation

在在线学习或者测试期间，针对不用的低样本任务采用不同的适应策略。对于Zero-shot RE，直接使用经过训练的MCMN来执行任务，对于Few-shot RE，对支持集执行在线任务元训练，如算法1。

Experiments

本文进行了三种任务上的实验：① Zero-shot RE；② Few-shot RE；③ Few-shot RE with NOTA，即查询集实例的关系类别不存在于支持集中。

消融实验

原文地址：https://blog.csdn.net/Daisymanman/article/details/127259176

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

SpringBoot在高校竞赛平台开发中的优化策略
同时，一个大型的计算机网站系统，必须有一个正确的设计指导思想，通过合理选择数据结构、网络结构、操作系统以及开发环境，构成一个完善的网络体系结构，才能充分发挥计算机信息管理的优势。随着计算机技术的发展以
阅读更多2024-10-14
Springboot+Spring-Security+JWT 实现用户登录和权限认证
Spring Boot 项目初始化：利用 Spring Initializr 创建项目，并添加必要依赖（Spring Web、Spring Security、JWT、JPA 等）。用户登录和注册接口：
阅读更多2024-10-14
QT事件与网络通信
【代码】QT事件与网络通信。
阅读更多2024-10-14
给定任意非空有向图 G，输出 G 中所有 K 顶点的算法，并返回 K 顶点的个数。
给定任意非空有向图 G，输出 G 中所有 K 顶点的算法，并返回 K 顶点的个数。C语言
阅读更多2024-10-14
题目解析：1423. 可获得的最大点数
从数组的两端开始取卡牌。我们可以从数组的开头拿一些卡牌，剩下的从末尾拿。为了找到能够获得的最大点数，尝试不同的取卡顺序，计算所有可能的组合得分。上面的正向思维方法虽然能够解决问题，但效率相对较低。，表
阅读更多2024-10-14
【星汇极客】STM32 HAL库各种模块开发之DHT11模块
本人是一名嵌入式学习者，在大学期间也参加了不少的竞赛并获奖，包括但不限于：江苏省电子设计竞赛省一、睿抗机器人国二、中国高校智能机器人国二、嵌入式设计竞赛国三、光电设计竞赛国三、节能减排竞赛国三。
阅读更多2024-10-14
uniapp、微信小程序、Vue中使用nzh库实现数字转中文大写
本文将详细介绍如何在uniapp、微信小程序和Vue项目中使用nzh库，帮助开发者轻松实现数字转中文大写、中文读数等功能。
阅读更多2024-10-14
Linux中的chmod命令详解
chmod命令是Linux系统中管理文件权限的重要工具。通过掌握其基本和高级用法，我们可以更有效地控制文件的访问权限，从而保护系统的安全性。无论是通过符号模式还是八进制模式，chmod都提供了灵活的方
阅读更多2024-10-14
el-date-picker绑定数据显示比数据库少一天问题解决记录
经过查阅资料，得知问题是因为时区不同步导致的。数据库存储的是UTC时间，而el-date-picker显示的是本地时间。如果数据库服务器和你的应用服务器的时区不一致，或者你直接从数据库取出来的UTC时
阅读更多2024-10-14
springboot自定义starter
配置类是通过无参构造创建出来，在通过set方法属性注入的，所以一定要保证无参构造器和对应set方法存在@Data即使用时要通过如下配置信息设置bean的属性值（yml格式）student:name:
阅读更多2024-10-14