多模态—图文匹配

🕗 发布于 2024-10-05 08:59 人工智能 深度学习

可能最近大家已经发现了chatgpt可以根据自己的描述生成图片，其实这就是一个图文匹配的问题，可以理解为这是一个多模态的问题。

在模型训练时我们需要N个图片和N个文本对进行训练，文本通过text encoder形成文本语义向量，text encoder可以采用BERT，GPT，Bart等，图片也需要通过image encoder进行转化为图片向量，可以采用resnet，Vgg，ViT等。

如下图所示，其对角线表示文图匹配对，我们作为正样本1，其余均是负样本-1，这里可以知道正样本是N个，负样本是N*N-N个，当N足够大时，正负样本数据不均衡问题会很明显，怎么做呢，我们需要对负样本采样。

采样的策略是随机，还是顺序？其实最好的方法应该是采样相似度较高的负样本这样增加训练难度，可以让模型达到更好的效果。

余弦范围是-1～1，训练模型目的，是为了让正样本最大化余弦相似度，负样本最小化余弦相似度。

原文地址：https://blog.csdn.net/qq_51925699/article/details/142709107

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：[C++][第三方库][Elasticsearch]详细讲解
下一篇：新160个crackme - 073-abexcrackme3

十一国庆节，学生们使用打字侠练习键盘指法
国庆节不仅是一个纪念祖国伟大历程的节日，也是学生们自我提升的好时机。通过打字侠练习键盘指法，学生们不仅能够在学习中体验到乐趣，还为未来的学习和工作打下坚实的基础。希望更多的学生能够在这个假期里，利用打
阅读更多2024-10-05
实战OpenCV之轮廓检测
轮廓检测，是指在图像中找到物体边缘的过程。这些边缘通常代表物体的外部边界或者内部结构的重要特征。通过检测这些轮廓，我们可以获取关于物体形状、大小和位置等有价值的信息。在OpenCV中，我们可以通过cv
阅读更多2024-10-05
图解大模型计算加速系列：vLLM源码解析3，Prefix Caching
当一个物理块没有任何逻辑块引用时（例如一个seq刚做完整个推理），这时它理应被释放。
阅读更多2024-10-05
C++中，如何使你设计的迭代器被标准算法库所支持。
DListNodeIterator : _DList正向迭代器，继承于。下面是_DList源码，最后修改于2024-10-01。std::iterator : 标准库读写迭代器。_DList ：是一个
阅读更多2024-10-05
idea2023-快速搭建一个本地tomcat的javaWeb项目（从0到1保姆教学）
idea创建javaweb项目，配置tomcat
阅读更多2024-10-05
手把手教你使用ECharts绘制金字塔结构图
大家好，今天我将为大家分享一篇关于如何使用ECharts绘制金字塔结构图的教程。ECharts是一款功能强大的图表库，可以轻松实现各种数据可视化效果。接下来，让我们一步步来学习如何绘制金字塔结构图。
阅读更多2024-10-05
认知杂谈96《反人性与顺人性》
举个例子来说，假如你知晓同事最近家里发生了一些事情，心情不太舒畅，那么在与他沟通工作的时候，你就可以多一些理解和耐心，而不是仅仅盯着工作结果不放。在这个过程中，我们不能仅仅关注自己的成长，还必须深刻理
阅读更多2024-10-05
手机使用技巧：8 个 Android 锁屏移除工具 [解锁 Android]
有时候，您会被锁定在自己的 Android 设备之外，而且似乎不可能重新进入。一个例子就是你买了一部二手手机，后来发现无法使用。另一种情况是你忘记了屏幕锁定密码和用于验证密码的 Google 帐户凭据
阅读更多2024-10-05
回执单识别-银行回单识别API-文字识别OCR API
银行回单识别接口简单高效易集成，只需要上传银行回单照片即可自动识别、提取银行回单上的文字信息，该接口一班由第三方接口来实现，例如翔云等平台，银行回单识别接口现已被广泛应用于企业财务管理、金融机构、电子
阅读更多2024-10-05
Java报错输出的信息究竟是什么？
相信看到这里，你会发出疑问，什么是栈帧呢？虚拟机栈中放入的栈帧到底是个什么东西呢？栈帧是虚拟机栈的基本存储单元，主要是由三部分组成：用于存放方法的参数和局部变量。这些变量在方法执行过程中会被频繁访问，
阅读更多2024-10-05

多模态—图文匹配

相关文章