论文分享|AAAI2024‘北航|用大语言模型缩小有监督和无监督句子表示学习的差距

🕗 发布于 2024-07-17 12:21 语言模型 人工智能 nlp 自然语言处理

先说结论，大语言模型除了作为聊天的Agent，也可以为检索模型生成优质的文本对训练数据，从而做到无监督场景下也能够适用。这里分享一篇AAAI2024的工作，重点探讨如何生成比评估集更困难的训练数据来提升无监督句子表示学习质量，应该对很多表示学习工作都有一定启发

论文题目：Narrowing the Gap between Supervised and Unsupervised Sentence Representation Learning with Large Language Model

来源：AAAI2024/实验室师兄/北航

方向：文本表示学习

开源地址：https://github.com/BDBC-KG-NLP/NGCSE

摘要

句子表示学习（SRL）是自然语言处理（NLP）中的一项基本任务，句子编码对比学习（CSE）因其优越的性能而成为主流技术。CSE中一个有趣的现象是有监督方法和无监督方法之间的显著性能差异，它们唯一的区别在于训练数据。以前的工作将这种性能差距归因于对齐和均匀性的差异。然而，由于对齐和均匀性只衡量结果，他们没有回答“训练数据的什么方面导致了性能差距？”以及“如何才能缩小性能差距？”。

本文进行了实验来回答这两个问题。首先通过彻底比较监督和无监督CSE在各自训练过程中的行为来回答“什么”的问题。从比较中，我们确定了相似度模式是性能差距的关键因素，并引入了一个度量，称为相对拟合难度Relative Fitting Difficulty（RFD），来衡量相似度模式的复杂性。

然后，基于从“什么”问题中获得的见解，我们通过增加训练数据的模式复杂性来解决“如何”问题。我们通过利用大语言模型（LLM）的上下文学习（ICL）能力来生成模拟复杂模式的数据来实现这一点。通过利用LLM生成数据中的有层次的模式，本文有效地缩小了有监督和无监督CSE之间的差距。

介绍

“什么”导致了性能差距

相似度模式：一个数据集怎样定义相似和不相似的文本对。训练数据集的相似度模式越复杂，训练效果越好。训练集的相似度模式可以用训练集与评估集间的对齐和均匀性的相对大小来衡量。用这种方式，可以发现有监督训练集（NLI）中的相似度模式要比评估集更复杂，而无监督训练集（Wiki）中的相似度模式要比评估集简单。下图说明了这一结论，在对齐和均匀性两个指标上，有监督训练集都要高于评估集，而无监督训练集都要更低。

由此本文提出了相对匹配难度Relative Fitting Difficulty (RFD)来评估相似度模式的复杂性，即计算对比学习训练过程中，Bert每个时间步在训练集和评估集的表征的对齐和均匀性的差值，再取平均

实验表明RFD较大的数据确实能获得更好的效果，下图中右上角的五角星代表本文的训练方法的结果，可以看到相比左下方的之前的无监督训练方式都有明显提升，同时RFD也基本都更大

如何才能缩小性能差距？

接着本文通过LLM的上下文学习，提示LLM模拟了NLI数据（即两个句子是违背还是不违背）和STSSTS数据（将两个句子的相似度分为positive，intermediate，negative，其中中间等级是让语言模型生成比positive细节少一些的句子）

为了有效利用STS生成数据中的层次化结构关系，本文还提出了一种层次化结构的三元损失Hierarchical Triplet (HT) loss

并将这个损失和对比损失结合作为训练目标

STS实验结果表明确实缩小了有监督和无监督训练的差异，在STS16上完成了反超，不过大部分还是不能达到有监督的水平

分类任务上将差距缩小到一个点以内，部分结果基本相当

大家好，我是NLP研究者BrownSearch，如果你觉得本文对你有帮助的话，不妨点赞或收藏支持我的创作，您的正反馈是我持续更新的动力！如果想了解更多LLM/检索的知识，记得关注我！

原文地址：https://blog.csdn.net/weixin_45783724/article/details/140455016

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：【python虚拟环境管理】【mac m3】使用poetry管理python项目
下一篇：RabbitMQ 安装

leetcode289:生命游戏
根据，简称为，是英国数学家约翰·何顿·康威在 1970 年发明的细胞自动机。给定一个包含m × n个格子的面板，每一个格子都可以看成是一个细胞。每个细胞都具有一个初始状态：1即为（live），或0即为
阅读更多2024-10-20
MongoDB数据恢复
注意：两个MongoDB的版本要一致，本文使用的是mongo:4.2.24。先把K8S上面的MongoDB 容器停止（可以把副本改成0）。1、将容器挂载MongoDB的数据目录备份到本地。经常是数据文
阅读更多2024-10-20
C#中实现事务
C#中实现事务
阅读更多2024-10-20
【LeetCode每日一题】——560.和为 K 的子数组
给你一个整数数组 nums 和一个整数 k ，请你统计并返回该数组中和为 k 的子数组的个数。子数组是数组中元素的连续非空序列。
阅读更多2024-10-20
「漏洞复现」满客宝智慧食堂系统 selectUserByOrgId 未授权访问漏洞
请勿利用文章内的相关技术从事非法测试，由于传播、利用此文所提供的信息而造成的任何直接或者间接的后果及损失，均由使用者本人负责，作者不为此承担任何责任。工具来自网络，安全性自测，如有侵权请联系删除。本次
阅读更多2024-10-20
React面试题目（从基本到高级）
React前端面试常见题目涵盖了React的基础概念、组件、状态管理、生命周期、性能优化等多个方面。
阅读更多2024-10-20
12.个人博客系统（Java项目基于spring和vue）
1 在校学习的学生，可用于日常学习使用或是毕业设计使用 2 毕业一到两年的开发人员，用于锻炼自己的独立功能模块设计能力，增强代码编写能力。 3 亦可以部署为商化项目使用。 4 需要完整资料及源码
阅读更多2024-10-20
YoloV8改进策略：注意力改进|DeBiFormer，可变形双级路由注意力|引入DeBiLevelRoutingAttention注意力模块（全网首发）
本次改进的核心在于将DeBiLevelRoutingAttention模块嵌入到YoloV8的主干网络中，具体位置是在SPPF（Spatial Pyramid Pooling Fast）模块之后。这一
阅读更多2024-10-20
word取消自动单词首字母大写
情况说明：在word输入单词后首字母会自动变成大写取消单词首字母大写步骤：（1）点击菜单栏文件（2）点击“更多”——>“选项”（3）点击“校对”——>“自动更正选项”（4）取消“句首字母大
阅读更多2024-10-20
web前端网页用户注册页面
【代码】web前端网页用户注册页面。
阅读更多2024-10-20

论文分享|AAAI2024‘北航|用大语言模型缩小有监督和无监督句子表示学习的差距

摘要

介绍

“什么”导致了性能差距

如何才能缩小性能差距？

相关文章