APC论文总结

🕗 发布于 2024-10-07 05:54 人工智能

论文详情

论文标题：APC: Adaptive Patch Contrast for Weakly Supervised Semantic Segmentation

论文作者：Wangyu Wu，Tianhong Dai，Zhenhong Chen，Xiaowei Huang，Fei Ma，Jimin Xiao

发表时间：2024

摘要

弱监督语义分割（Weakly Supervised Semantic Segmentation, WSSS）仅使用图像级标签，因其成本效益高而备受关注。典型框架是使用图像级标签作为训练数据生成像素级伪标签，并对其进行精炼。最近，基于视觉Transformer（Vision Transformer, ViT）的方法在生成可靠的伪标签方面展现出优越的能力，尤其是在识别完整的目标区域时，相较于卷积神经网络（CNN）方法表现更佳。然而，目前的ViT方法在使用patch embedding时存在一些局限性，容易受到某些异常patch的主导影响，此外，许多多阶段方法训练时间长且耗时，因此缺乏效率。因此，本文提出了一种名为自适应Patch对比（Adaptive Patch Contrast, APC）的新型ViT弱监督语义分割方法，该方法显著增强了patch embedding的学习能力，从而提高了分割效果。APC通过自适应-K池化（Adaptive-K Pooling, AKP）层解决了之前最大池化选择方法的局限性。此外，我们提出了Patch对比学习（Patch Contrastive Learning, PCL），以增强patch embedding，从而进一步提升最终的分割结果。我们还改进了现有的无需类激活映射（CAM）的多阶段训练框架，将其转化为端到端的单阶段训练方法，从而提高了训练效率。实验结果表明，我们的方法在较短的训练时间内，在PASCAL VOC 2012和MS COCO 2014数据集上优于其他最新的弱监督语义分割方法，表现出更高的效果和效率。

背景

目前在弱监督语义分割领域常用的方法就是利用图片和类标签通过CAM产生伪标签，但是CAMs本身具有的在准确估计对象的形状和定位方面不准确的特点具有局限性。尽管在最近的工作中人们通过对CAM产生的伪标签优化、设计各种优化策略来增加最后生成的final pseudo的准确度，但是仍然无法摆脱CAM的这种限制。在这种情况下，一些研究者转向使用基于ViT-based的架构运用到弱监督语义分割任务中，例如：ViT-PCM、AFA等等。然而，目前基于全局最大池化来预测分数最高的Patch进而预测的方法可能会由于错误的分类而影响最终的结果，缺乏鲁棒性。所以在本文作者利用了一些方法解决这些问题。

动机

1. 现存的基于ViT的没有使用CAM的架构利用最大池化层将image embedding 与 softmax连接起来，产生不同类的分数，这样的方法缺乏鲁棒性。

2. 现存的基于ViT的没有使用CAM的架构通常包含多阶段的训练，这种方法使得训练过程的效率大大降低。

3. 随着模型中网络层数的增加可能会导致。

改进

1. 通过incorporating adaptive-k pooling，解决个别被错误分类的Patct对最后结果造成影响的问题。

2. 提出了一个对比学习的方法（Patch Contrastive Learning）的方法通过增加不同类别的patch之间的距离，减少同一类patch的距离，从而提高patch embedding的类内精致性和类间差异性，进一步提高伪标签的质量。

3. 提出了一个端对端的但阶段训练框架，解决了对阶段框架效率低下的问题，并且在分割任务下准确率优于其他方法。

方法

首先输入的图片被分割成s个Patch小块，具体如下：

Input image

Input patch

其中

这里的d是预先设定的值，与选用的backbone有关，如果选用ViT-B/16那么d一般就为16。

然后这些patch会被送入ViT，输出是patch向量（patch embedding） $F_{in}$ 大小为s×e。

$F_{in}$ 接着被送入BiSLTM网络，被进一步优化，简要来说BiSLTM的作用是提升特征表示，使得能够捕捉水平和垂直方向的信息，输出的结果为 $F_{out}$ （与 $F_{in}$ 大小相同）。

紧接着 $F_{out}$ 作为三个分支的输入：

Fout被输入到seg decoder中，seg decoder 的工作原理主要是将高层特征映射转换为更细致的分割图像。这个模块通常在语义分割任务中使用，旨在对每个像素进行分类。

主要通过上采样的方式增加特征图的分辨率，然后经过全连接层，使得对每个像素点可以做分类的预测，每个像素点都包含了所有类的分数，然后通过这些分数生成掩码。

Patch Contrastive Learning

这个公式表示两个patch向量之间的距离，而且结果在1到-1之间，越接近-1说明这两个向量相距远。

这个公式的作用是归一化，作用是可以使得上面计算的结果可以控制在0-1之间。

同时，正如上面所说 $F_{out}$ 其实就是每个patch对于每个类c的分数，所以作者设定了一个阈值 $\varepsilon$ 来讲patch分为high confidence和low confidence，具体如下：

最后作者设置了一个loss函数实现对比学习：

是high confidence patch的个数

是low confidence patch的个数

FW经过softmax函数归一化生成Z，Z表示每个patch对于所有类的预测分数，Z的大小为s×|C| 。

然后Z被分别输入到Patch To Pixel模块和Adaptive-k pooling模块中

Patch To Pixel模块的作用就是通过得到的Z细化产生分割掩码

Adaptive-k pooling的作用就是优化Patch To Pixel的过程

Patch To Pixel

已知输入Z的大小为s×e然后同样经过上采样增加特征图的分辨率

最后细化的结果就作为掩码

然后这个掩码的结果与之前seg decoder生成的掩码有一个二元交叉熵损失。

Adaptive-k pooling

Adaptive-k pooling通过选取每个类别下的k个patch的平均值，最为该图像的预测分数。

算法如下：

模型的输出Z替代了传统的 max pooling 层，将每个类别多个 patch 的预测分数映射为图像级别的类别预测。

并且这里的K是自适应变化的，具有灵活性，并且更具鲁棒性。

总结

在这项工作中，我们提出了一种APC（Adaptive Patch Contrastive）方法，用于弱监督语义分割，而不依赖于类激活图（CAM）。与之前的方法不同，APC 通过自适应 K 池化来选择 k 个 patch，将 patch 级别的分类映射到图像级别分类，从而缓解了潜在误分类的 patch 问题。此外，我们还提出了patch 对比学习（PCL），以进一步增强 patch 的特征表示。在同一类别中，PCL 的目标是减少高置信度 patch 之间的距离，并增加高置信度 patch 与低置信度 patch 之间的距离。通过将这两部分结合，我们的方法在仅使用图像级标签的弱监督语义分割任务中实现了最先进的结果。

原文地址：https://blog.csdn.net/2301_80740635/article/details/142730838

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：【大模型理论篇】精简RNN循环序列模型性能可与Transformer媲美以及对循环神经网络的回顾
下一篇：《河南大学学报（自然科学版）》

深入理解Flask应用中不同模式下的数据库连接池
连接池的重要性：连接池可以提高数据库操作的性能和可靠性。同步模式下的连接池：即使一次只处理一个请求，连接池也可能维护多个连接。Gevent模式下的连接池：需要更大的连接池支持高并发请求。合理配置连接池
阅读更多2024-10-07
## jupyter_server
【代码】## jupyter_server。
阅读更多2024-10-07
基于微信小程序的生鲜订购小程序系统(SpringBoot+Vue+Uniapp+MySQL)
开发者不再需要手动配置大量的 XML 文件或繁琐的注解，框架提供了默认的配置，根据项目的依赖关系和约定，自动完成配置。系统测试主要是为了避免用户在使用时发生问题，增强用户体验感，为了不影响用户的使用，
阅读更多2024-10-07
uniapp页面传值
【代码】uniapp页面传值总结。
阅读更多2024-10-07
滑动窗口_找出字符串中所有字母异位词、串联所有单词的子串_C++
的子串，返回这些子串的起始索引。不考虑答案输出的顺序。指字母相同，但排列不同的字符串。
阅读更多2024-10-07
qemu模拟arm64环境-构建6.1内核以及debian12
qemu模拟arm64环境-构建香橙派6.1内核以及debian12
阅读更多2024-10-07
【线性代数】【第二章】矩阵习题
【线性代数】【第二章】矩阵习题
阅读更多2024-10-07
IIOT工业物联网的数据分析与预测维护_SunIOT
通过充分挖掘数据的价值，实现对设备的精准维护，企业能够提高生产效率，降低成本，增强市场竞争力，在数字化转型的浪潮中占据有利地位。随着技术的不断进步和应用的不断深入，数据分析与预测维护在工业物联网中的作
阅读更多2024-10-07
【PS2020】Adobe Photoshop 2020 中文免费版
photoshop 2020是全球最大的图像处理软件，为用户提供了广泛的专业级润饰工具套件，集成了专为激发灵感而设计的强大编辑功能，帮助用户制作出满意的图片效果，是很多摄影师、广告师等专业人员必备的一
阅读更多2024-10-07
Redis Stack十部曲之五：管理Redis
Redis 的安全模型依赖于可信的客户端和环境。其设计初衷是使 Redis 只被可信客户端访问，通常不应该直接暴露 Redis 实例到互联网或不受信任的环境中
阅读更多2024-10-07

APC论文总结

论文详情

摘要

背景

动机

改进

方法

Patch Contrastive Learning

Patch To Pixel

Adaptive-k pooling

总结

相关文章