XMA-Adapter: CROSS-MODAL ADAPTER_ PARAMETER-EFFICIENT TRANSFER LEARNINGAPPROACH
论文的baseline是Tip-Adapter
https://blog.csdn.net/weixin_50917576/article/details/144122242?spm=1001.2014.3001.5501
当前的问题
当前的方法通过利用图像模态缓存和检索来克服训练的需要,但它们忽略了文本模态的重要性和跨模态线索对视觉语言模型中参数的有效适应。
动机
为文本和图像模式建立缓存模型。然后,它利用视觉语言双峰信息的检索来收集推理线索。
解决办法
之前的适配器是为图像或文本设计的,这两个部分独立工作,不合并或交互信息。如何充分利用图像和文本之间的融合信息已成为研究界关注的焦点。为了解决这个问题,我们提出了一种集成文本和图像信息的XMAdapter方法,如图1©所示。该模型为图像域和文本域建立键值对,将文本知识嵌入图像域,从而创建跨模态缓存模型。
方法
图像缓存模型构建
跟Tip-Adapter一样,这里不赘述
https://blog.csdn.net/weixin_50917576/article/details/144122242?spm=1001.2014.3001.5501
跨模态缓存模型构建(核心创新点)
为了更好地利用不同模态之间的信息,我们设计了一个跨模态缓存模型,步骤如下:首先,通过MetaNet网络将**预训练好的****(me:应该是作者提取用CoOp训练好的文本特征)**文本侧 F CoOp text F^{\text{text}}_{\text{CoOp}} FCoOptext从CoOp线性映射到低维空间 D D D,得到meta2text-feature的特征向量。随后,利用缓存标签的值查询特征向量,生成一个维度为样本总数N和D的矩阵。然后, f test image f^{\text{image}}_{\text{test}} ftestimage通过Img2TxtNet网络映射到低维空间 D D D,生成image2text-feature的特征向量。最后,文本侧的亲和度 A text A^{\text{text}} Atext可以描述如下:
其中MetaNet和Img2TxtNet代表一个线性神经网络(MLP)。
自适应缩放
me:加权合并双模态缓存的矩阵。
其中$ \gamma $为自适应调节系数。
Building Logits
想法跟Tip-Adapter一样,只不过$ A $是基于双模态缓存的。
在线难例挖掘
该模型在缓存模型下表现良好。为了进一步提高其性能,我们采用了OHEM(在线难例挖掘)方法。具体来说,对于难例样本,我们设置不同的权重以提高模型的准确性。过程如下:我们获得图像的亲和度矩阵 A image A^{\text{image}} Aimage和文本的亲和度矩阵 A text A^{\text{text}} Atext。通过利用模态之间亲和度的差异,我们旨在识别难例样本。学习难例的权重会自适应调整,具体描述如下:
me: A b weight A^{\text{weight}}_{b} Abweight越大,应该就是越难识别的样本。
∣ ∣ ⋅ ∣ ∣ ||\cdot|| ∣∣⋅∣∣表示两个数字的绝对值, A b n image A^{\text{image}}_{bn} Abnimage为图像亲和力矩阵 A image A^{\text{image}} Aimage中的一个样本, N N N为缓存模型中的样本个数,sigmoid为阈值函数,取值范围为 [ 0 , 1 ] [0,1] [0,1]。
在训练阶段,模型首先计算logits与训练样本标签之间的交叉熵损失lce b。随后,它通过合并A的权重b的平均值来调整损失,形成最终的损失函数。这个过程可以描述如下:
(我的思考:作者是认为越难识别的样本我们应该更加关注,所以给他的损失 L b c e \mathcal{L}^{ce}_b Lbce权重 A b weight A^{\text{weight}}_{b} Abweight越大吗?)
实验
参考资料
论文下载(2024 ICME CCF B)
https://arxiv.org/abs/2404.12588
代码地址(未开源)
原文地址:https://blog.csdn.net/weixin_50917576/article/details/144122357
免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!