《Dynamic Focus-aware Positional Queries for Semantic Segmentation》CVPR2023

🕗 发布于 2024-09-25 22:25 深度学习 transformer 语义分割

代码：GitHub - ziplab/FASeg: [CVPR 2023] This is the official PyTorch implementation for "Dynamic Focus-aware Positional Queries for Semantic Segmentation".[CVPR 2023] This is the official PyTorch implementation for "Dynamic Focus-aware Positional Queries for Semantic Segmentation". - ziplab/FASeghttps://github.com/ziplab/FASeg

摘要

这篇论文提出了一种新的查询设计，称为动态聚焦感知位置查询（Dynamic Focus-aware Positional Queries，DFPQ），用于语义分割任务。这种方法动态生成位置查询，依赖于前一个解码器块的交叉注意力得分和相应图像特征的位置编码。DFPQ能够为目标区域保留丰富的位置信息，并提供准确、细粒度的位置先验。此外，作者还提出了一种有效处理高分辨率交叉注意力的方法，称为高分辨率交叉注意力（High-Resolution Cross-Attention，HRCA），它通过仅聚合基于低分辨率交叉注意力得分的上下文标记来执行局部关系聚合。

概述

拟解决的问题：传统的DETR（Detection Transformer）类分割器依赖于可学习的参数化位置查询，这些查询倾向于编码数据集的统计信息，导致对不同个体查询的位置定位不准确。此外，由于每个查询只关注预测的前景区域，不准确的预测会导致解码器块之间的错误累积。

(a) 原始随机初始化的位置查询作为可学习的网络参数，其中位置查询在 Transformer 解码器块中共享，并且倾向于对建模语义区域可能位置的数据集统计进行编码，从而导致定位不准确。(b) 基于锚的位置查询以边界框坐标为条件，以给出锚点周围的每个查询位置先验。然而，锚点不能描述语义区域，因此语义分割仍然不是最优的。(c) 我们对语义分割的动态焦点感知查询是从前一个解码器块的交叉注意力分数动态生成的，以提供准确和细粒度的位置先验，促进逐步定位和细化目标片段。

创新之处：

DFPQ：提出了一种新的查询设计，它根据前一个解码器块的交叉注意力得分动态生成位置查询，为每个目标对象提供更准确的定位先验。
HRCA：提出了一种有效的方法来处理高分辨率交叉注意力，通过仅聚合低分辨率交叉注意力得分指示的重要区域的上下文标记，以高效地学习细粒度的细节。

方法

3.1 DETR中的交叉注意

交叉注意层是通过聚合图像上下文来更新对象查询的基本模块，由于交叉注意层是排列不变的，因此查询和键都需要位置信息，这引入了顺序并提供了位置先验，以鼓励对位置重要区域的高关注分数。

如图所示，K有两个，一个时图像的 $K_{c}$ ，一个是位置编码 $K_{p}$ ，故 $K=K_{c}+K_{p}$ 。

目标查询Q也包含了两个，分别是内容查询和位置查询， $Q=Q_{c}+Q_{p}$ 。

交叉注意力为：其中V是图像特征

可以将交叉注意解释为基于Q和K之间的点积相似度的图像上下文聚合。由于q和K的内容部分和位置部分都有助于计算注意分数，因此考虑了这两个部分的相似度。内容相似度有助于挖掘对象查询与图像特征之间的相关性，而位置相似度为每个目标段提供位置先验。

3.2 动态焦点感知位置查询（DFPA）

目标是开发位置查询，在类似DETR的语义分割框架下提供有效的位置先验。

生成基于交叉注意分数的位置查询有三个很好的特性。

首先，交叉注意分数表示上下文丰富的区域，可以直接反映目标片段的定位信息。因此，当在类DETR框架中堆叠多个具有交叉关注层的解码器块时，前一个块中的定位信息有助于逐步定位后一个块中的目标片段，特别是当这些块处理不同尺度的特征时。
第二，交叉注意分数是动态生成的。与DETR中作为可学习参数的与内容无关的位置查询不同，DETR中的位置查询倾向于对整个数据集的统计数据进行编码，限制了模型的泛化能力，而交叉注意分数以反映特定上下文位置的每个目标片段为条件，因此更加准确。
最后，交叉注意分数可以覆盖细粒度的分割细节、边缘和边界，而不是只编码单个中心或锚点。

论文提出以前面解码器块的交叉注意分数和相应图像特征的位置编码为条件生成位置查询。

虚线框中显示了DFPQ的生成，将图像特征的位置编码与前面解码器块的交叉注意分数相乘，然后乘以投影函数h以获得DFPQ。

B是可学习的网络参数，h 是一个两层 MLP，中间具有 ReLU 非线性。

通过这种方式，动态生成DFPQ，以提供目标片段的位置先验。它还可以覆盖不受锚点限制的细粒度分割提示。

3.3 高效的高分辨率交叉注意（HRCA）

提出了一种高效的高分辨率交叉注意（HRCA）层，以从高分辨率特征图中挖掘细节，并承担合理的内存负担。

首先从所有对象查询中具有最高交叉注意分数的低分辨率图像特征中选择前k个像素。然后，以自上而下的方式将这些区域映射到高分辨率特征图位置，并仅对这些位置进行交叉注意。

首先得到低分辨率的交叉注意力得分 $A_{l}$ ，然后通过双线性上采样操作f（·）导出其高分辨率对应值 $A_{h}=f\left ( A_{l} \right )$ 。接下来，我们将 $A_{h}$ 中得分最高的前k个像素纳入集合Ω, 有效的HRCA可以公式化为:

g是索引操作。只对高分辨率特征图的信息区域进行交叉关注，从而节省了大量的资源消耗。

3.4 框架图

通过简单地结合我们的DFPQ和HRCA，在Mask2former框架上开发了我们的FASeg：

首先为具有DFPQ的Mask2former提供了更准确和细粒度的位置先验。我们在每个解码器块的交叉关注层中应用DFPQ，以提供良好的位置先验，用于聚合上下文图像特征以定位目标片段。以这种方式，随着我们在解码器块中深入，逐渐地定位目标片段。由于在第一个Transformer解码器块之前没有交叉关注分数，通过对来自辅助预测头的预测前景掩码执行平均池化来获得第一个块的DFPQ。
在级联的三个解码器块之后，添加了配备有HRCA的第四个解码器块，以自上而下的方式对高分辨率特征图上的交叉注意力进行建模。

原文地址：https://blog.csdn.net/qq_46981910/article/details/142482193

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：《机器学习》—— 经典机器学习算法的导入方法
下一篇：ctf.show----＞re2

预处理（1）（手绘）
大家好，今天给大家分享一下编译器预处理阶段，那么我们来看看。上面是一些预处理阶段的知识，那么明天给大家讲讲宏吧。
阅读更多2024-11-18
C语言项⽬实践-贪吃蛇
GetAsyncKeyState 的返回值是short类型，在上⼀次调⽤ GetAsyncKeyState 函数后，如果返回的16位的short数据中，最⾼位是1，说明按键的状态是按下，如果最⾼是0
阅读更多2024-11-18
Cache Line设计
以上代码实现了模拟的 Cache Line 结构，并包含了初始化、修改和释放内存的功能，完全符合题目中的需求描述。
阅读更多2024-11-18
Linux性能优化之火焰图简介
Linux 火焰图（Flame Graph）是一种可视化工具，用于分析程序性能问题，尤其是 CPU 使用情况。它展示了程序中函数调用的层次结构和各个调用栈占用的时间比例。本文详细介绍，包括火焰图的工作
阅读更多2024-11-18
南京邮电大学《智能控制技术》期末抢救（下）
专家系统是一个智能程序系统：具有相关领域内大量的专家知识；能应用人工智能技术模拟人类专家求解问题的思维过程进行推理，解决相关领域内的困难问题，并且达到领域专家的水平。专家系统所要解决的问题一般没有算法
阅读更多2024-11-18
pytorch基础-前向传播与反向传播
神经网络的基础，前向传播与反向传播（包含理论推导与pytorch代码）
阅读更多2024-11-18
【hacker送书第15期】AI绘画精讲与AIGC时代游戏美术设计：从入门到精通
随着人工智能技术的飞速发展，AI绘画已经成为了一个备受瞩目的领域。在这个背景下，北京大学出版社推出了一系列关于AI绘画的优秀图书，其中就包括了《AI绘画精讲：Stable Diffusion从入门到精
阅读更多2024-11-18
Electron：Menu 自定义菜单的使用、自定义右键菜单、动态创建菜单
Electron：Menu 自定义菜单的使用、自定义右键菜单、动态创建菜单
阅读更多2024-11-18
算法----二分法找出有序列表指定值
res = dichotomy(0, len(data) - 1, data, 56) # 这里max索引应该是len(data) - 1，因为索引从0开始。return dichotomy(mid
阅读更多2024-11-18
网络
第四次挥手时，客户端发出 ACK 后，会等待 2MSL（报文在网络上存在的最长时间）确保最后的 ACK 报文能够到达服务端，2MSL 之后客户端会关闭连接，服务端收到确认后也会关闭连接。IP 协议是整
阅读更多2024-11-18

《Dynamic Focus-aware Positional Queries for Semantic Segmentation》CVPR2023

摘要

概述

方法

3.1 DETR中的交叉注意

3.2 动态焦点感知位置查询（DFPA）

3.3 高效的高分辨率交叉注意（HRCA）

3.4 框架图

相关文章