【论文笔记】Attention Prompting on Image for Large Vision-Language Models

🕗 发布于 2024-11-07 15:50 论文阅读语言模型 人工智能 多模态大模型

🍎个人主页：小嗷犬的个人主页
🍊个人网站：小嗷犬的技术小站
🥭个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。

基本信息

标题: Attention Prompting on Image for Large Vision-Language Models
作者: Runpeng Yu, Weihao Yu, Xinchao Wang
发表: ECCV 2024
arXiv: https://arxiv.org/abs/2409.17143

基本信息

摘要

与大型语言模型（LLMs）相比，大型视觉语言模型（LVLMs）也能接受图像作为输入，从而展现出更多有趣的涌现能力，并在各种视觉语言任务上表现出令人印象深刻的表现。

受LLMs中的文本提示启发，视觉提示已被探索以增强LVLM感知视觉信息的能力。

然而，之前的视觉提示技术仅处理视觉输入，不考虑文本查询，限制了模型遵循文本指令完成任务的能力。

为了填补这一空白，在这项工作中，我们提出了一种名为Attention Prompting on Image（API）的新提示技术，它简单地在原始输入图像上叠加一个由文本查询引导的注意力热图，从而有效地增强了LVLM在各种任务上的表现。

具体来说，我们使用类似于CLIP的辅助模型根据文本查询生成输入图像的注意力热图。

然后，热图简单地乘以原始图像的像素值，以获得LVLM的实际输入图像。

在各个视觉语言基准上的大量实验验证了我们的技术的有效性。

例如，API在MM-Vet和LLaVA-Wild基准上分别将LLaVA-1.5提高了3.8%和2.9%。

主要贡献

我们发现，当前的视觉提示技术严重修改输入图像，而没有考虑文本查询，限制了模型准确遵循指令的能力。
为了填补这一空白，我们提出了API方法，探讨如何从各种类型的VLM模型中提取有价值的归因图，并将它们作为视觉提示来提供视觉感知的线索，从而提高性能。
我们的实验证明了该方法在各种数据集上对广泛VLM模型的有效性。此外，我们的方法在解决幻觉问题上也已被证明是有效的。

方法

Attention Prompting on Image

使用一个辅助的大型视觉语言模型结合输入图像和文本提示，生成一个由文本查询引导的注意力热图，再将注意力热图叠加在原始图像上。

Obtaining Attribution Map from CLIP

CLIP模型 $g_{\text{clip}}$ 由一个视觉编码器和一个文本编码器组成，在隐空间中计算输入图像和文本之间的相似度 $sim(\hat{I}, \hat{T})$ ，其中 $\hat{I} = g_{\text{clip}}^{\text{img}}(I)$ ， $\hat{T} = g_{\text{clip}}^{\text{text}}(T)$ 。该相似度用于度量整张图像和文本之间的相关性。为了获得文本查询到每个图像patch的相关度图，我们需要对图像级别的相似度特征 $\hat{I}$ 进行分解，以此得到每个图像patch特征与文本特征 $\hat{T}$ 的相似度。

由于存在残差连接，视觉编码器的最终输出 $\hat{I}$ 实际上包括了每一层的影响。因此， $\hat{I}$ 可以表示为每一层类别标记位置值的线性组合：

$\hat{I} = \mathcal{L}\left(\left[Z_{\text{cls}}^{0}\right]\right) + \sum_{l=1}^{L}\mathcal{L}\left(\left[\operatorname{MSA}^{l}\left(Z^{l-1}\right)\right]_{\text{cls}}\right) + \sum_{l=1}^{L}\mathcal{L}\left(\left[\operatorname{MLP}^{l}\left(\hat{Z}^{l}\right)\right]_{\text{cls}}\right)$

$L$ 表示视觉编码器中Transformer层的数量，其中 $\operatorname{MSA}$ 和 $\operatorname{MLP}$ 分别代表Transformer中的多头自注意力结构和多层感知器结构； $\mathcal{L}$ 代表包括全连接层和Transformer结构之后计算相似度得分之前执行的归一化操作的线性变换； $Z^l$ 表示第 $l$ 个Transformer层的输入token序列； $[Z]_\text{cls}$ 表示token序列 $Z$ 中cls token的值。这些输出的cls token通过残差连接聚合，形成视觉编码器的输出。

在这些求和项中，MSA最后几层的输出起着决定性作用，而来自浅层MSA层输出、MLP输出以及与输入图像无关的 $Z^0_\text{cls}$ 项的贡献可以视为对最终相似度测量的忽略不计。因此，相似度 $sim(\hat{I}, \hat{T})$ 可以通过计算 $\hat{T}$ 与深层MSA的聚合输出的相似度来近似：

$\operatorname{sim}(\hat{I}, \hat{T}) \approx \operatorname{sim}\left(\sum_{l=L^{\prime}}^{L}\mathcal{L}\left(\left[\operatorname{MSA}^{l}\left(Z^{l-1}\right)\right]_{\text{cls}}\right), \hat{T}\right)$

其中 $L^{\prime}$ 代表预定义的起始层索引。为进一步计算文本查询对每个patch的归因，我们展开多头自注意力机制的操作：

$\begin{align*} {\left[\operatorname{MSA}^{l}\left(Z^{l-1}\right)\right]_{cls}} &= \sum_{h}^{H}\left[A^{(l, h)} V^{(l, h)} W^{(l, h)}\right]_{cls} + B^{l} \\ &= \sum_{t=1}^{T} \underbrace{\left[\sum_{h}^{H} A_{cls, t}^{(l, h)} V_{t,:}^{(l, h)} W^{(l, h)} + \frac{1}{H T} B^{l}\right]}_{\text{The MSA output corresponding to the }t\text{-th patch(token)}} \triangleq \sum_{t=1}^{T} \eta_{t}^{l} \end{align*}$

在第 $l$ 层中， $A (l, h)$ 和 $V (l, h)$ 分别是对应于第 $h$ 个注意力头的注意力图和Value矩阵； $W (l, h)$ 是第 $l$ 层中用于合并多个注意力头的权重矩阵，对应于第 $h$ 个头； $B (l)$ 是第 $l$ 层中用于合并多个注意力头的偏置矩阵； $A_{cls, t}^{(l, h)}$ 表示cls token对第 $t$ 个token的注意力值； $V_{t,:}^{(l,h)}$ 表示 $V (l, h)$ 的第 $t$ 行； $H$ 和 $T$ 分别是注意力头的数量和token的数量；而值 $T$ 等于patch数 $\times P + 1$ 。

因此，第 $t$ 个patch的特征可以表示为 $\psi_{t}\triangleq\sum_{l=L^{\prime}}^{L}\mathcal{L}\left(\eta_{t}^{l}\right)$ ，我们可以计算文本查询与第 $t$ 个图像patch之间的相似性。相应地，归因图 $\Psi^{cls} \in \mathbb{R}^{P \times P}$ 被定义为：

$\Psi^{cls}_{i,j} \triangleq sim(\psi_{t}, \hat{T}), \quad\text{where}\ t = 1 + j + P * (i - 1).$

通过对 cls token进行分解，我们可以识别哪些patch与查询更为相关。当查询包含特定实体时，这种方法特别有效，允许进行精确的定位。然而，在复杂的视觉问答（VQA）任务中，查询中往往没有明确提及实体，或者回答问题所涉及的逻辑和分析过程可能依赖于查询中没有明确提及的实体。为了解决这个问题，我们还定义了另一个互补归因图 $\Psi^{comp}$ 。该图旨在捕捉与查询具有潜在或隐含相关性的区域。

我们实验观察到，在CLIP的视觉Transformer中，查询特征 $\hat{T}$ 与最终层中除cls token外的token的相似度得分可以（反向）选择重要区域。对应图像背景或大块单色区域的patch与 $\hat{T}$ 的相似度得分显著高于代表特定实体（这些实体可能不一定出现在查询中）的token。一个可能的解释是，这些“空白”token本身缺乏有价值的信息，被Transformer视为寄存器。Transformer最初利用它们存储来自其他token的信息，随后通过注意力机制过滤和汇总这些存储的信息到cls token，以形成最终的预测。因此，与 $\hat{T}$ 具有高相似度得分的除cls token外的token，代表信息含量低的patch，可以不予考虑。我们定义互补归因图如下：

$\Psi^{comp}_{i,j} \triangleq 1 - sim(\mathcal{L}(Z^L_t), \hat{T}), \quad\text{where}\ t = 1 + j + P * (i - 1).$

$Z^L_t$ 表示最后一个Transformer层的第 $t$ 个输出token。互补归因图与相似度成反比，表明缺乏信息的patch被忽略，仅保留具有潜在相关性的patch。

因此，我们获得了两张相互补充的归因图： $\Psi^{cls}$ 明确识别与查询实体直接相关的区域，但可能遗漏一些可能相关的区域。 $\Psi^{comp}$ 同样识别所有可能相关的区域，但缺乏特异性，无法突出显示与查询实体直接相关的区域。

通过以下操作整合两个归因图，我们得到CLIP的最终归因图：

$\Psi_{i,j} \triangleq \Psi^{cls}_{i,j} + \Psi^{comp}_{i,j} - \Psi^{cls}_{i,j} * \Psi^{comp}_{i,j}$

这种整合可以被视为一种soft OR操作。

Obtaining Attribution Map from LLaVA

LLaVA模型是一种MLLM，它利用多头自注意力机制从文本查询和图像patch中提取信息，预测后续的token。给定长度为 $N$ 的文本token序列 $Z^\text{text} = {\{Z^\text{text}_t \}}_{t=1}^{N}$ ，以及长度为 $\times P$ 的图像token序列 $Z^\text{img} = {\{Z^\text{img}_t \}}_{t=1}^{P \times P}$ ，LLaVA生成一个长度为 $M$ 的新token序列 $Z^\text{out} = {\{Z^\text{out}_t \}}_{t=1}^{M}$ 。我们直接使用token $Z^\text{out}_t$ 与每个图像token之间的注意力权重作为 $Z^\text{out}_t$ 对该图像patch的归因。类似于CLIP模型的策略，我们选择深层的注意力图来提取注意力权重。最终的归因图在整个生成的token序列和所有注意力头之间平均。形式上，归因图 $\Psi$ 定义为：

$\Psi_{i, j} \triangleq \frac{1}{M H} \sum_{m=1}^{M} \sum_{h=1}^{H} A_{m, t}^{(\bar{L}, h)}, \quad\text{where}\ t = j + P * (i - 1).$

在定义中， $A^{(\bar{L}, h)}$ 是第 $\bar{L}$ 层的第 $h$ 个头对应的注意力图，其中 $\bar{L}$ 是一个超参数集合；为了符号的简洁性，此处 $A^{(\bar{L}, h)}$ 是整个注意力图的一个子矩阵，仅包括 $Z^\text{out}$ 和 $Z^\text{img}$ 之间的交叉注意力； $A_{m, t}^{(\bar{L}, h)}$ 仍然表示从第 $m$ 个token到第 $t$ 个token的注意力值。

From Token Space to Pixel Space

$\Psi \in \mathbb{R}^{P \times P}$ 的归因图在token空间中生成。我们首先将其调整回像素空间以获得原始热图 $\hat{\Phi} \triangleq \operatorname{Resize}(\Psi)$ 。由于patch的方形形状， $\hat{\Phi}$ 中的掩码模式也呈矩形。为了减轻矩形掩码模式与物体不规则形状不匹配的问题，我们应用均值滤波器以获得最终热图 $\Phi \triangleq \operatorname{Mean_k}(\hat{\Phi})$ ，其中 $k$ 是滤波器的核大小。然后，将最终热图 $\Phi$ 通过将其用作 alpha 通道叠加到原始图像上，得到标注后的最终图像 $I^a$ 。

实验

主实验

Comparison of our method with previous textual and visual prompting methods for various LVLMs

与先前针对各种LVLMs的文本和视觉提示方法的比较。

消融实验

Ablation study on the auxiliary VLM Scale

关于辅助VLM Scale的消融实验。

Ablation study on the mean filter kernel size

关于均值滤波器核大小的消融实验。

Ablation study on the Transformer layer for attribution map extraction

关于用于归因图提取的Transformer层的消融实验

The comparison between our method and textual self-reflection method and their combination

本文方法与文本self-reflection方法的比较及结合。

The performance of our method on hallucination datasets

本文方法在幻觉数据集上的表现。

总结

在这项工作中，我们介绍了一种名为Attention Prompting on Image（API）的新型视觉提示技术，该技术结合了一个辅助的LVLM，根据文本查询在图像上生成注意力热图。

我们广泛的实验证明了我们的提示方法在不同基准上对不同LVLM的优势。

此外，我们的方法为使用视觉信号进行LVLM集成和LVLM自我反思提供了新的见解。

原文地址：https://blog.csdn.net/qq_63585949/article/details/143453395

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：吴恩达深度学习笔记：卷积神经网络（Foundations of Convolutional Neural Networks）4.7-4.8
下一篇：Sat-NeRF论文笔记和复现问题处理

go网络编程
上述代码有个瑕疵就是每次客户端退出就会输出 EOF ，为了避免这个输出，可以使用如下代码处理。完整的改进版 server 端代码如下，客户端代码不变。再打开一个终端，运行客户端代码。再打开一个窗口运行
阅读更多2024-11-08
Webserver(3.3)生产者消费者模型
解决该问题需要用互斥量确保线程同步，用条件变量或者信号量去解决生产者和消费者之间同步的问题，生产者把数据生产满了要通知消费者去消费。会产生数据安全问题，比如生产者还未生产出来，就去消费。
阅读更多2024-11-08
SQL练习专场--01
在这个专场中，会陆续更新一些关于sql的面试题。
阅读更多2024-11-08
MySQL——索引
MySQL索引的特性
阅读更多2024-11-08
Navicat for MySQL 错误：1251
mySql：8.4Navicat for MySQL：11.0.10 企业版绿色版。
阅读更多2024-11-08
【ORACLE】对Oracle中char类型的研究分析
在国产数据库做ORACLE兼容性实现时，无可避免会遇到CHAR类型的差异，但是对于大多数的应用开发者来说，并不会深入去了解char类型的机制。很多开发者之前在ORACLE上就没弄懂，好不容易写出来的S
阅读更多2024-11-08
python venv 使用介绍
注意⭐：`venv` 本身不能直接安装其他版本的 Python。它只能使用已安装的 Python 版本来创建虚拟环境。因此，如果你需要使用不同的 Python 版本（例如 Python 3.8 或 P
阅读更多2024-11-08
Java基础使用①Java特点+环境安装+IDEA使用
Java基础使用①Java特点+环境安装+IDEA使用（Java特点+jdk+IntelliJ IDEA安装和输入hello+IDEA常见快捷键）
阅读更多2024-11-08
浏览器是如何渲染页面的？ - 2024最新版前端秋招面试短期突击面试题
当浏览器的网络线程收到 HTML 文档后，会产生一个渲染任务，并将其传递给渲染主线程的消息队列。主线程会依次处理这些任务，开启渲染流程。浏览器的渲染过程是一个复杂而高效的流水线，每一步都有明确的输入和
阅读更多2024-11-08
法语nous sommes
法语短语。
阅读更多2024-11-08

【论文笔记】Attention Prompting on Image for Large Vision-Language Models

基本信息

摘要

主要贡献

方法

Obtaining Attribution Map from CLIP

Obtaining Attribution Map from LLaVA

From Token Space to Pixel Space

实验

主实验

消融实验

总结

相关文章