《Dynamic Focus-aware Positional Queries for Semantic Segmentation》CVPR2023
摘要
这篇论文提出了一种新的查询设计,称为动态聚焦感知位置查询(Dynamic Focus-aware Positional Queries,DFPQ),用于语义分割任务。这种方法动态生成位置查询,依赖于前一个解码器块的交叉注意力得分和相应图像特征的位置编码。DFPQ能够为目标区域保留丰富的位置信息,并提供准确、细粒度的位置先验。此外,作者还提出了一种有效处理高分辨率交叉注意力的方法,称为高分辨率交叉注意力(High-Resolution Cross-Attention,HRCA),它通过仅聚合基于低分辨率交叉注意力得分的上下文标记来执行局部关系聚合。
概述
拟解决的问题:传统的DETR(Detection Transformer)类分割器依赖于可学习的参数化位置查询,这些查询倾向于编码数据集的统计信息,导致对不同个体查询的位置定位不准确。此外,由于每个查询只关注预测的前景区域,不准确的预测会导致解码器块之间的错误累积。
(a) 原始随机初始化的位置查询作为可学习的网络参数,其中位置查询在 Transformer 解码器块中共享,并且倾向于对建模语义区域可能位置的数据集统计进行编码,从而导致定位不准确。(b) 基于锚的位置查询以边界框坐标为条件,以给出锚点周围的每个查询位置先验。然而,锚点不能描述语义区域,因此语义分割仍然不是最优的。(c) 我们对语义分割的动态焦点感知查询是从前一个解码器块的交叉注意力分数动态生成的,以提供准确和细粒度的位置先验,促进逐步定位和细化目标片段。
创新之处:
- DFPQ:提出了一种新的查询设计,它根据前一个解码器块的交叉注意力得分动态生成位置查询,为每个目标对象提供更准确的定位先验。
- HRCA:提出了一种有效的方法来处理高分辨率交叉注意力,通过仅聚合低分辨率交叉注意力得分指示的重要区域的上下文标记,以高效地学习细粒度的细节。
方法
3.1 DETR中的交叉注意
交叉注意层是通过聚合图像上下文来更新对象查询的基本模块,由于交叉注意层是排列不变的,因此查询和键都需要位置信息,这引入了顺序并提供了位置先验,以鼓励对位置重要区域的高关注分数。
如图所示,K有两个,一个时图像的,一个是位置编码 ,故。
目标查询Q也包含了两个,分别是内容查询和位置查询,。
交叉注意力为:其中V是图像特征
可以将交叉注意解释为基于Q和K之间的点积相似度的图像上下文聚合。由于q和K的内容部分和位置部分都有助于计算注意分数,因此考虑了这两个部分的相似度。内容相似度有助于挖掘对象查询与图像特征之间的相关性,而位置相似度为每个目标段提供位置先验。
3.2 动态焦点感知位置查询(DFPA)
目标是开发位置查询,在类似DETR的语义分割框架下提供有效的位置先验。
生成基于交叉注意分数的位置查询有三个很好的特性。
- 首先,交叉注意分数表示上下文丰富的区域,可以直接反映目标片段的定位信息。因此,当在类DETR框架中堆叠多个具有交叉关注层的解码器块时,前一个块中的定位信息有助于逐步定位后一个块中的目标片段,特别是当这些块处理不同尺度的特征时。
- 第二,交叉注意分数是动态生成的。与DETR中作为可学习参数的与内容无关的位置查询不同,DETR中的位置查询倾向于对整个数据集的统计数据进行编码,限制了模型的泛化能力,而交叉注意分数以反映特定上下文位置的每个目标片段为条件,因此更加准确。
- 最后,交叉注意分数可以覆盖细粒度的分割细节、边缘和边界,而不是只编码单个中心或锚点。
论文提出以前面解码器块的交叉注意分数和相应图像特征的位置编码为条件生成位置查询。
虚线框中显示了DFPQ的生成,将图像特征的位置编码与前面解码器块的交叉注意分数相乘,然后乘以投影函数h以获得DFPQ。
B是可学习的网络参数,h 是一个两层 MLP,中间具有 ReLU 非线性。
通过这种方式,动态生成DFPQ,以提供目标片段的位置先验。它还可以覆盖不受锚点限制的细粒度分割提示。
3.3 高效的高分辨率交叉注意(HRCA)
提出了一种高效的高分辨率交叉注意(HRCA)层,以从高分辨率特征图中挖掘细节,并承担合理的内存负担。
首先从所有对象查询中具有最高交叉注意分数的低分辨率图像特征中选择前k个像素。然后,以自上而下的方式将这些区域映射到高分辨率特征图位置,并仅对这些位置进行交叉注意。
首先得到低分辨率的交叉注意力得分,然后通过双线性上采样操作f(·)导出其高分辨率对应值。接下来,我们将中得分最高的前k个像素纳入集合Ω, 有效的HRCA可以公式化为:
g是索引操作。只对高分辨率特征图的信息区域进行交叉关注,从而节省了大量的资源消耗。
3.4 框架图
通过简单地结合我们的DFPQ和HRCA,在Mask2former框架上开发了我们的FASeg:
首先为具有DFPQ的Mask2former提供了更准确和细粒度的位置先验。我们在每个解码器块的交叉关注层中应用DFPQ,以提供良好的位置先验,用于聚合上下文图像特征以定位目标片段。以这种方式,随着我们在解码器块中深入,逐渐地定位目标片段。由于在第一个Transformer解码器块之前没有交叉关注分数,通过对来自辅助预测头的预测前景掩码执行平均池化来获得第一个块的DFPQ。
在级联的三个解码器块之后,添加了配备有HRCA的第四个解码器块,以自上而下的方式对高分辨率特征图上的交叉注意力进行建模。
原文地址:https://blog.csdn.net/qq_46981910/article/details/142482193
免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!