[阅读笔记21][RA-CM3]Retrieval-Augmented Multimodal Language Modeling

🕗 发布于 2024-04-21 10:03 笔记语言模型 人工智能

这篇论文是meta联合斯坦福在23年4月发表的论文，提出了一个使用外部知识检索增强的多模态模型。

这篇模型提出的RA-CM3模型是第一个能够检索并生成图像文本的多模态模型，在图像文本生成任务上优于现有的多模态模型，同时使用更少的训练量。
RA-CM3从结构上可以分为两大块，一块是检索器，一块是生成器。下图是整体的流程，对于一个给定的caption，要生成它对应的图像，可以先使用多模态检索器从外部存储中检索出若干相似的图文对，然后把这些图文对和一开始的caption输入生成器中，由生成器生成预测出来的图像。

第一部分是检索器的结构，对于一个询问q和候选文档m（其实就是图文对），用下面的公式计算它们的相关性得分，其中Eq是q的编码器，Em是m的编码器。由于这里的询问和文档都是多模态信息，所以编码器也应该是多模态编码器，这里作者选用冻结的CLIP，然后再平均一下这两个向量，并缩放至向量长度为1，这时候该向量就是多模态信息的表示向量了。
然后使用最大内积搜索，获得按照相关性得分排序的候选文档列表，然后在该列表中采样k个文档。
接下来作者讨论了一下检索过程中最关键的三个因素：相关性、多模态、多样性。
相关性指的是检索结果要和输入序列相关，不然检索出来的信息是没有用的。
多模态指的是这里检索出来的是多模态信息，与以往只检索单模态不太一样，通过消融实验证明多模态信息对后续生成器有正向帮助，毕竟这里文本和图像是关联的，多模态文档的信息量更大。
多样性指的是检索出来的信息应该尽量不重复，如果简单取topk相关的k个文档，那么多样性就很很差，导致生成器性能也很差。作者对此有两个改进，第一个改进是跳过跟query或已检索到的文档相似度特别高的候选文档，这个改进称之为Avoid Redundancy。第二个改进是Query Dropout，顾名思义就是对query进行dropout，随机丢弃query中20%的token。这样query转为向量后，即使取最相似的几个文档也跟原始的query没那么相似了。

接下来是第二部分，生成器的设计。作者沿用了CM3作为生成器，然后输入的时候之前检索到的文档作为上下文拼接起来一起输入，然后损失函数分两部分，一部分是当前样本的，还有一部分是检索出来的文档的，文档那部分有个系数可以调，论文里说一般取0.1。目前的检索增强模型都只计算当前样本的损失，作者这里加入检索样本的损失是因为反正都会被算一遍，不如顺手加上，而且这还相当于扩大了batchsize，又不需要引入太多额外的计算。

接下来是训练过程，训练用的数据集来自LAION的一个子集，经过清洗后得到150M文本对，然后沿用CM3中数据的格式，将图文对转成html文档，然后外部知识库同样使用这150M的数据。训练时在检索的时候要么用图像，要么用文本，如果直接用图文对那对于模型来说预测可能会变得很容易，另外这和推理时行为也不一致。
然后是RA-CM3的结果展示，左图是在COCO数据集上图像生成的性能对比，可以看到基本上优于大部分自回归的模型，并且参数量非常少。右边是图像生成质量和训练计算量的图，RA-CM3在自回归模型中取得了更好的训练效率。

左边是文生图的结果，右边是涉及一些罕见的或者说是不存在的场景生成。例如法国国旗插在月球上，没有检索能力的模型很难生成符合要求的图像。

接下来是图像填充的结果，左图预测的时候使用检索出来的样本作为上下文，直观感受上要比baseline好不少。右图预测的时候没用检索，因为检索出来的也是放到prompt里，所以自然可以手动把需要的图放到prompt中，代替检索的结果，这样就能达到一种图像编辑的效果。

原文地址：https://blog.csdn.net/m0_55982600/article/details/138010394

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：linux——sed与正则表达式
下一篇：屏幕状态自动检测+鼠标自动操作

linux线程cp模型，posix信号量，线程池，线程封装，单例模型，懒汉饿汉实现方式，自旋锁，读者写者模型
前面的同步，我们并没有一个很好的场景来模拟同步，只是简单的将有序的现象输出出来；现在我们来讲解一个比较合理且常见的模型——生产者消费者模型；
阅读更多2024-09-07
Qt/C++开源项目 TCP服务器调试助手（源码分享+发布链接下载）
该TCP服务器调试助手是用于测试和监控基于TCP协议的网络通信工具，能够帮助开发者便捷地进行网络通信调试。通过简洁的界面设计，用户可以轻松配置、管理TCP端口的连接，收发消息并进行数据监控分析。123
阅读更多2024-09-07
vue3整合antv x6实现图编辑器快速入门
例如：在上面节点基础上，我们有一个新的需求：给节点加上右键菜单。X6 支持使用 SVG、HTML 来渲染节点内容，在此基础上，我们还可以使用 React、Vue 组件来渲染节点，这样在开发过程中会非常
阅读更多2024-09-07
linux使用samba共享目录，其他虚拟机和windows都可以访问
linux使用samba共享目录，其他虚拟机和windows都可以访问
阅读更多2024-09-07
Linux系统编程实现ls -l | wc -l指令
由于该指令是通过管道的形式实现的，所以我们要使用系统函数pipe。ls -l |wc -l的作用就是统计当前目录有多少文件。由于父子间通过管道实现，所以存在读写阻塞问题，不用担心僵尸进程的产生，所以可
阅读更多2024-09-07
MySQL表操作及约束
MySQL表操作及约束
阅读更多2024-09-07
1.2CubeMAX创建FREERTOS入门示例
内核参数设置，用户根据自己的实际应用来裁剪定制。：相关宏的定义，可以自建一些常量在工程中使用。User Constants（用户常量）：定时器和信号量的创建。：用于查看堆使用情况。：任务与队列
阅读更多2024-09-07
YOLOv9改进策略【注意力机制篇】| PSA极化自我关注：实现高质量像素回归
本文记录的是基于PSA注意力模块的YOLOv9目标检测方法研究。PSA模块。本文将其应用到YOLOv9的检测任务中，使模型能够更好地捕捉图像中的细节信息，以实现目标检测任务中准确识别和定位。
阅读更多2024-09-07
爆改YOLOv8|利用yolov10的SCDown改进yolov8-下采样
yolov8改进，yolov10, 下采样SCDown, 即插即用
阅读更多2024-09-07
PDF样本图册转换为一个链接，随时打开无需印刷
想象一下，您手中有一本厚重的样本图册，里面包含了丰富多样的内容，如产品介绍、项目方案、学术论文等。在过去，您需要逐一翻阅、筛选，甚至为了便于查看，不得不将其印刷出来。如今，借助先进的数字化技术，还能实
阅读更多2024-09-07

[阅读笔记21][RA-CM3]Retrieval-Augmented Multimodal Language Modeling

相关文章