【论文复现】ChatGPT多模态命名实体识别

🕗 发布于 2024-11-05 00:48 chatgpt 人工智能 aigc AIGC

在这里插入图片描述

作者主页： 七七的个人主页
文章收录专栏： 论文复现
欢迎大家点赞 👍 收藏 ⭐ 加关注哦！💖💖

ChatGPT多模态命名实体识别

ChatGPT辅助细化知识增强！
一、研究背景
二、模型结构和代码
三、任务流程
- 第一阶段：辅助精炼知识启发式生成
- 第二阶段：基于辅助精炼知识的实体预测
四、数据集介绍
五、性能展示
六、实现过程
七、运行过程

本文所涉及所有资源均在这里可获取。

ChatGPT辅助细化知识增强！

在这里插入图片描述
多模态命名实体识别（MNER）最近引起了广泛关注。用户在社交媒体上生成大量非结构化内容，主要由图像和文本组成。这些帖子具有与社交媒体相关的固有特征，包括简洁和非正式的写作风格。这些独特的特征对传统的命名实体识别（NER）方法提出了挑战。

在本文中，我提出了一个两阶段框架，旨在利用 ChatGPT 作为隐式知识库，并使其能够启发式生成辅助知识，以实现更有效的实体预测。具体来说，其中包含一个多模态相似示例感知模块，该模块从少量预定义的人工样本中选择合适的示例。然后将这些示例集成到适合 MNER 的格式化提示模板中，并指导 ChatGPT 生成辅助细化知识。最后，将获得的知识与原始文本集成并输入下游模型以进行进一步处理。

【注】文章中所用到的数据集，都经过预处理的数据集文件（.txt），代码和数据集都放在了附件中，感兴趣的小伙伴可以进行下载，谢谢支持！

一、研究背景

社交媒体上的多模态命名实体识别（MNER）旨在通过结合基于图像的线索来增强文本实体预测。现有的研究主要集中在最大限度地利用相关图像信息或结合显式知识库中的外部知识。然而，这些方法要么忽视了为模型提供外部知识的必要性，要么遇到检索知识冗余度高的问题。

二、模型结构和代码

我的模型主要分为两个阶段。在生成辅助细化知识的阶段，我利用一组有限的预定义人工样本，并采用多模态相似示例感知模块来仔细选择相关实例。然后，将这些选定的示例合并到格式正确的提示中，从而增强为 ChatGPT 提供的启发式指导，以获取精炼的知识。在基于辅助知识的实体预测阶段，将原始文本与ChatGPT生成的知识信息相结合。然后，将此级联输入输入基于转换器的编码器以生成token表示。最后，将表示输入线性链条件随机场层，以预测原始文本序列的概率分布。

三、任务流程

任务公式化
上下文学习

虽然GPT-4可以接受多模态信息输入，但这一功能仅处于内部测试阶段，尚未公开使用。此外，与ChatGPT相比，GPT-4的成本更高，API请求速度较慢。为了提高可复现性，我们仍然选择ChatGPT作为主要的研究对象，并且提供的这一范式也可以用于GPT-4。

为了使ChatGPT能够完成图文多模态任务，使用了先进的多模态预训练模型将图像转换为图像说明。最后将测试输入x设计为以下模板:
在这里插入图片描述

第一阶段：辅助精炼知识启发式生成

预定义的人工样本
使ChatGPT在MNER任务中表现更好的关键在于选择合适的上下文示例。获取准确标注的上下文示例，这些示例能够精确反映数据集的标注风格并提供扩展辅助知识的途径，是一个显著的挑战。直接从原始数据集中获取这些示例并不可行。为了解决这个问题，我采用了随机抽样的方法，从训练集中选择一小部分样本进行人工标注。具体来说，对于Twitter-2017数据集，从训练集中随机抽取200个样本进行人工标注，而对于Twitter-2015数据集，数量为120。标注过程包括两个主要部分。第一部分是识别句子中的命名实体，第二部分是综合考虑图像和文本内容以及相关知识，提供全面的理由说明。在标注过程中遇到的多种情况中，标注者需要从人类的角度正确判断并解释样本。对于图像和文本相关的样本，我们直接说明图像中强调了文本中的哪些实体。对于图像和文本无关的样本，我们直接声明图像描述与文本无关。通过人工标注过程，强调了句子中的实体及其对应的类别。此外，引入了相关的辅助知识来支持这些判断。这个细致的标注过程为ChatGPT提供了指导，使其能够生成高度相关且有价值的回答。
多模态相似示例感知模块
由于GPT的少样本学习能力在很大程度上取决于上下文示例的选择，我设计了多模态相似示例感知（MSEA）模块来选择合适的上下文示例。作为一个经典的多模态任务，MNER的预测依赖于文本和视觉信息的整合。因此，我们将文本和图像的融合特征作为评估相似示例的基本标准。而这种多模态融合特征可以从之前的多模态命名实体识别（MNER）模型中获得。将MNER数据集D和预定义的人工样本G表示为：

在以往的研究中，经过交叉注意力投射到高维潜在空间的融合特征H会直接输入到解码层，以进行结果预测。我们的模型选择H作为相似示例的判断依据，因为在高维潜在空间中相近的示例更有可能具有相同的映射方式和实体类型。计算测试输入与每个预定义人工样本的融合特征H的余弦相似度。然后，选择前N个相似的预定义人工样本作为上下文示例，以启发ChatGPT生成辅助的精炼知识：
启发式增强提示生成

第二阶段：基于辅助精炼知识的实体预测

在这里插入图片描述

四、数据集介绍

我们在两个公共 MNER 数据集上进行了实验：Twitter-2015和 Twitter-2017。这两个数据集都是从Twitter平台上收集的，包含了文本和图像的配对信息，主要用于研究在社交媒体短文本场景下的多模态命名实体识别和情感分析等任务。

Twitter-2015：推文中的文本部分被手动标注了命名实体，并使用BIO2（Beginning- Inside-Outside）标注方案对命名实体进行分类。实体类别包括人物（Person）、组织（Organization）、地点（Location）等。3373/723/723(train/development/test)
Twitter-2017：相比于Twitter-2015，Twitter-2017数据集的规模更大，包含了更多的推文样本。Twitter-2017不仅扩大了数据规模，还提高了标注的多样性和复杂性，推文中的命名实体更加丰富。此外，推文配对的图像信息在识别命名实体方面也具有重要作用，尤其是那些无法通过文本直接判断的实体。4000/1000/3257(train/development/test)

五、性能展示

Twitter-2015：
Twitter-2017

六、实现过程

在下载附件并准备好数据集并调试代码后，进行下面的步骤，附件已经调通并修改，可直接正常运行；
环境要求

python == 3.7
torch == 1.13.1
transformers == 4.30.2
modelscope == 1.7.1

我们的项目基于AdaSeq, AdaSeq项目基于Python版本>= 3.7和PyTorch版本>= 1.8。
下载

git clone https://github.com/modelscope/adaseq.git
cd adaseq
pip install -r requirements.txt -f https://modelscope.oss-cn-beijing.aliyuncs.com/releases/repo.html

将我们的附件文件夹复制到/adaseq/examples/

-adaseq
---|examples
-----|ER
-------|twitter-15-txt.yaml
-------|twitter-17-txt.yaml

用我们的adaseq文件夹替换原来的adaseq文件夹

-adaseq
---|.git
---|.github
---|adaseq   <-- (Use our adaseq replace it)  
---|docs
---|examples
---|scripts
---|tests
---|tools

训练模型

python -m scripts.train -c examples/ER/twitter-15.yaml
python -m scripts.train -c examples/ER/twitter-17.yaml

七、运行过程

训练过程在这里插入图片描述
最终结果

详细复现过程的项目源码、数据和预训练好的模型可从该文章下方链接获取：https://www.aspiringcode.com/content。

关于今天的文章七七就先分享到这里了，如果你认为这篇文章对你有帮助，请给七七点个赞吧，如果发现什么问题，欢迎评论区留言！！💕💕

原文地址：https://blog.csdn.net/2201_75366661/article/details/143489193

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：HTML 框架
下一篇：论负载均衡技术在Web系统中的应用论文

【工具类】JAVA开发从SFTP服务器下载文件
SFTP工具类，打成JAR文件后直接放到服务器上执行。
阅读更多2024-11-05
【linux】HTTPS 协议原理
HHTPS协议
阅读更多2024-11-05
鸿蒙HarmonyOS开发：给应用添加基础类型通知和进度条类型通知（API 12）
通知旨在让用户以合适的方式及时获得有用的新消息，帮助用户高效地处理任务。显示接收到的短消息、即时消息等。显示应用的推送消息，如广告、版本更新等。显示当前正在进行的事件，如下载等。
阅读更多2024-11-05
Centos 网络接口打vlan标签
本次使用给bond打vlan标签，其实其他普通接口也一样。查询802.1q 模块是否加载。2.1. 创建bond配置文件。本次实验使用bond1 模式。给bond0 接口打标签。重启网络查看vlan标
阅读更多2024-11-05
libaom 源码分析：帧内方向预测模式
libaom 源码分析：帧内方向预测模式
阅读更多2024-11-05
java版CRM客户关系管理系统源码-CRM客户关系管理系统的技术架构与功能实现
本CRM客户关系管理系统通过整合待办事项、线索、客户、联系人、商机、合同、回款等多个功能模块，为企业提供了一套全面、高效的客户关系管理解决方案。系统采用先进的技术架构和灵活的配置方式，能够满足企业
阅读更多2024-11-05
【数学二】线性代数-矩阵-初等变换、初等矩阵
【数学二】线性代数-矩阵-初等变换、初等矩阵
阅读更多2024-11-05
京准时钟：无人机卫星信号安全防护隔离装置
京准时钟：无人机卫星信号安全防护隔离装置
阅读更多2024-11-05
Blender进阶：着色器节点
着色点着色点UV坐标取得UV中的x值，此值介于【0,1】将X值转成一个颜色颜色作为基础色，完成着色。每一个着色点，都执行一遍这套流程。最终完成整个面的着色。在着色时，每个点的颜色根据UV坐标计算得到
阅读更多2024-11-05
WPF开发，将引用的dll在编译时指向单独的文件夹。
在这种情况下，它将获取"引用的程序集"解决方案文件夹所引用的新dll，并在提交它们之前自动添加源代码控制跟踪(即，如果像我一样从Visual Studio中的解决方案资源管理器中提
阅读更多2024-11-05