【人工智能】ChatGPT多模型感知态识别

🕗 发布于 2024-11-08 16:28 chatgpt 人工智能

ChatGPT辅助细化知识增强！

在这里插入图片描述
多模态命名实体识别（MNER）最近引起了广泛关注。用户在社交媒体上生成大量非结构化内容，主要由图像和文本组成。这些帖子具有与社交媒体相关的固有特征，包括简洁和非正式的写作风格。这些独特的特征对传统的命名实体识别（NER）方法提出了挑战。

一、研究背景

社交媒体上的多模态命名实体识别（MNER）旨在通过结合基于图像的线索来增强文本实体预测。现有的研究主要集中在最大限度地利用相关图像信息或结合显式知识库中的外部知识。

二、模型结构和代码

我的模型主要分为两个阶段。在生成辅助细化知识的阶段，我利用一组有限的预定义人工样本，并采用多模态相似示例感知模块来仔细选择相关实例。然后，将这些选定的示例合并到格式正确的提示中，从而增强为 ChatGPT 提供的启发式指导，以获取精炼的知识。

任务流程

任务公式化
上下文学习

虽然GPT-4可以接受多模态信息输入，但这一功能仅处于内部测试阶段，尚未公开使用。此外，与ChatGPT相比，GPT-4的成本更高，API请求速度较慢。为了提高可复现性，我们仍然选择ChatGPT作为主要的研究对象，并且提供的这一范式也可以用于GPT-4。

为了使ChatGPT能够完成图文多模态任务，使用了先进的多模态预训练模型将图像转换为图像说明。最后将测试输入x设计为以下模板:
在这里插入图片描述

一：启发式生成

预定义的人工样本
使ChatGPT在MNER任务中表现更好的关键在于选择合适的上下文示例。获取准确标注的上下文示例，这些示例能够精确反映数据集的标注风格并提供扩展辅助知识的途径，是一个显著的挑战。直接从原始数据集中获取这些示例并不可行。为了解决这个问题，我采用了随机抽样的方法，从训练集中选择一小部分样本进行人工标注。具体来说，对于Twitter-2017数据集，从训练集中随机抽取200个样本进行人工标注，而对于Twitter-2015数据集，数量为120。标注过程包括两个主要部分。第一部分是识别句子中的命名实体，第二部分是综合考虑图像和文本内容以及相关知识，提供全面的理由说明。在标注过程中遇到的多种情况中，标注者需要从人类的角度正确判断并解释样本。对于图像和文本相关的样本，我们直接说明图像中强调了文本中的哪些实体。对于图像和文本无关的样本，我们直接声明图像描述与文本无关。通过人工标注过程，强调了句子中的实体及其对应的类别。此外，引入了相关的辅助知识来支持这些判断。这个细致的标注过程为ChatGPT提供了指导，使其能够生成高度相关且有价值的回答。
多模态相似示例感知模块
由于GPT的少样本学习能力在很大程度上取决于上下文示例的选择，我设计了多模态相似示例感知（MSEA）模块来选择合适的上下文示例。作为一个经典的多模态任务，MNER的预测依赖于文本和视觉信息的整合。因此，我们将文本和图像的融合特征作为评估相似示例的基本标准。而这种多模态融合特征可以从之前的多模态命名实体识别（MNER）模型中获得。将MNER数据集D和预定义的人工样本
G

在这里插入图片描述

在以往的研究中，经过交叉注意力投射到高维潜在空间的融合特征H会直接输入到解码层，以进行结果预测。我们的模型选择HH作为相似示例的判断依据，因为在高维潜在空间中相近的示例更有可能具有相同的映射方式和实体类型。计算测试输入与每个预定义人工样本的融合特征H的余弦相似度。然后，选择前N个相似的预定义人工样本作为上下文示例，以启发ChatGPT生成辅助的精炼知识：
在这里插入图片描述
为了高效实现相似示例的感知，所有的多模态融合特征可以提前计算并存储。

三、数据集介绍

我们在两个公共 MNER 数据集上进行了实验：Twitter-2015和 Twitter-2017。这两个数据集都是从Twitter平台上收集的，包含了文本和图像的配对信息，主要用于研究在社交媒体短文本场景下的多模态命名实体识别和情感分析等任务。、

Twitter-2015：推文中的文本部分被手动标注了命名实体，并使用BIO2（Beginning- Inside-Outside）标注方案对命名实体进行分类。实体类别包括人物（Person）、组织（Organization）、地点（Location）等。3373/723/723(train/development/test)

三、性能展示

在这里插入图片描述

本文所有资源均可在该地址处获取。

实现过程

在下载附件并准备好数据集并调试代码后，进行下面的步骤，附件已经调通并修改，可直接正常运行；
环境要求

python == 3.7
torch == 1.13.1
transformers == 4.30.2
modelscope == 1.7.1

我们的项目基于AdaSeq, AdaSeq项目基于Python版本>= 3.7和PyTorch版本>= 1.8。
下载

git clone https://github.com/modelscope/adaseq.git
cd adaseq
pip install -r requirements.txt -f https://modelscope.oss-cn-beijing.aliyuncs.com/releases/repo.html

训练模型

python -m scripts.train -c examples/ER/twitter-15.yaml
python -m scripts.train -c examples/ER/twitter-17.yaml

运行过程

训练过程

在这里插入图片描述

原文地址：https://blog.csdn.net/smile_sundays/article/details/143528829

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：随机采样之接受拒绝采样
下一篇：Stable Diffusion 3.5 能力挽狂澜吗？

「QT」文件类之 QTemporaryDir 临时目录类
QTemporaryDir类是Qt框架中用于创建和管理临时目录的类。它提供了一个便捷且安全的方式来生成唯一的临时目录，这些目录通常用于存储临时文件或子目录，以便在程序运行期间进行临时存储或处理。QTe
阅读更多2024-11-16
【c++笔试强训】（第五篇）
因此，Fibonacci数列就形如：0, 1, 1, 2, 3, 5, 8, 13, ...，在Fibonacci数列中的数我们称为Fibonacci数。给你一个N，你想让其变为一个Fibonacci
阅读更多2024-11-16
vue2 动态路由的实现
一般情况下，路由都是前端约定好的，但是每当项目发布上线，或者客户需求新的页面的时候，都需要做出路由改变。这样运维就可以现场支持，方便做出可操作的中户中台，来管理我们的中心项目登录及权限，路由等方面；注
阅读更多2024-11-16
算法导论第二章
从今天开始会陆续更新关于算法导论的啃书相关文章，先从前往后而且比较常用的章节开始讲起，所以可能会有部分不怎么用的着的章节会跳过。由于第一章没讲什么具体内容，所以选择跳过从第二章开始讲起。
阅读更多2024-11-16
生成式GPT商品推荐：精准满足用户需求
随着人工智能（AI）技术的飞速发展，电商平台正在逐步迎来一场前所未有的变革。尤其是生成式GPT（Generative Pre-trained Transformer）技术的应用，正在重新定义电商平台如
阅读更多2024-11-16
【机器学习基础】西瓜书阅读笔记task01
机器学习：研究如何通过计算的手段，利用经验来改善系统自身的性能计算机系统中，经验通常以数据形式存在。机器学习研究的主要内容：计算机从数据中产生模型的算法，即“学习算法”把经验（经验数据）提供给这个算法
阅读更多2024-11-16
卷积神经网络之Yolo详解
IoU用于衡量预测框与真实框的重叠程度，是目标检测中的基础评估指标。置信度反映了模型对于其预测框包含物体的信心。精确率衡量了预测为目标的框中，实际是目标的比例。召回率衡量了模型能够找到的真实目标的比例
阅读更多2024-11-16
ssm092基于Tomcat技术的车库智能管理平台+jsp(论文+源码)_kaic
它将程序数据通过使用不同的数据表格进行保存，在增加了程序数据的存储速度的时候，也提高了数据库的灵活性。当前需要开发的程序软件是根据当下的用户需求进行设计开发的，但是随着时间的推移，社会大环境的改变，开
阅读更多2024-11-16
vue3初始项目结构与分析
时隔多年再次学习vue，单纯学习刚创立好的项目分析其结构与运作方式，掌握了基础才能在工作中延申。
阅读更多2024-11-16
理解 C++ 中的 `const` 关键字
const关键字在 C++ 中的使用是良好的编程实践。它能提高代码的安全性、可读性，并帮助优化编译器的性能。为了防止逻辑错误和性能问题，建议在可能的情况下尽量使用const。通过对比其他编程语言，可以
阅读更多2024-11-16

【人工智能】ChatGPT多模型感知态识别

目录

ChatGPT辅助细化知识增强！

一、研究背景

二、模型结构和代码

任务流程

一：启发式生成

三、数据集介绍

三、性能展示

实现过程

运行过程

训练过程

相关文章