Rethinking the Localization in Weakly Supervised ObjectLocalization

🕗 发布于 2024-10-09 11:58 深度学习 计算机视觉 人工智能 论文阅读

论文名称：Rethinking the Localization in Weakly Supervised Object Localization

论文地址：Rethinking the Localization in Weakly Supervised Object Localization (arxiv.org)

1.背景

最近，将WSOL分成两部分(与类无关的对象定位和对象分类)已经成为完成这项任务的最先进的方法。然而，现有的这种流水线下的解决方案通常存在以下缺点:

1)由于采用单类回归(single-class regression, SCR)进行定位，每张图像只能定位一个目标，不太灵活;

2)生成的伪边界盒可能有噪声，但这种噪声的负面影响没有得到很好的解决。

2.论文的创新点

为了解决背景中的问题，论文首先提出用二元类检测器(BCD)代替SCR来定位多目标，其中检测器通过区分前景和背景来训练；然后利用未标记的数据设计加权熵损失来降低噪声边界框的负面影响。

尽管分离的定位、分类管道具有SOTA性能，但主要缺点是采用简单的SCR进行定位。SCR只能为一个图像提供一个输出边界框，因此在处理包含多个对象的图像时不充分且不灵活，这在实际应用中很常见。另外，生成的伪边界框可能是不准确的，甚至是完全错误的，但是这些有噪声的标签被直接用于训练，而没有经过仔细的考虑。为了克服这些缺点，我们提出了一种新的wsols方法，称为加权熵引导二类检测器(WEND)。特别地，我们首先提出用二进制类检测器(BCD)代替SCR，该检测器可以自然输出多个边界框，并通过区分前景和背景以二进制分类方式进行训练。这可以提高灵活性和准确性，因为任何竞争性检测器都可以合并。然后，为了减轻噪声边界盒对检测器训练的负面影响，我们进一步提出了利用大量未标记数据的加权熵损失(we)。熵最小化可以减少前景和背景区分时的不确定性。考虑到背景部分通常比前景物体多很多，我们重新加权熵损失来降低过于自信的背景的权重，使检测器更多地关注不太自信的前景。如图1所示，与目前分离的定位分类管道中采用的定位方法相比，我们的WEND能够预测多个边界框，并且预测结果具有低熵高置信度的特点。

效果图如下：

3.方法

在训练阶段，通过区分前景和背景，以二值分类的方式训练多输出检测器(如RPN+R-CNN)，其中利用现有方法(如C2AM)生成的类别不确定的伪边界框作为ground-truth标签。将输出的正(蓝色)和负(红色)概率{𝑝}和位置{𝑡}(如果可能的话，以及定位质量{𝑐})与训练的伪边界框进行比较。此外，将无监督加权熵(WE)约束应用于二类检测器(BCD)的分类器，以处理噪声伪标签的负面影响。通过对预测概率进行加权熵最小化，可以以更高的置信度识别前景，并进一步细化边界框。

（1）二元类检测器

首先使用传统的CNN主干提取输入图像的特征图，主干可以是VGG、ResNet、Inception或GoogLeNet。然后，在我们的工作中，直接将检测头应用于特征映射以生成预测，该预测由预测的分类概率(以及可能的定位质量)和预测的边界框组成。然后在训练过程中，通过IoU重叠或一对一匹配来分配标签，将伪ground-truth边界框与检测器的预测结果进行比较。例如，对于基于锚点的检测器，如果锚点的IoU重叠等于或高于具有任何伪接地真值框的预定前景IoU阈值，则为其分配一个正标签。如果没有符合此标准的正锚点，则认为与伪接地真值盒IoU重叠最大的锚点为正锚点。另一方面，如果锚的IoU小于具有所有伪真值框的预定背景IoU阈值，则为其分配负标签。所有其他锚都被忽略，对训练过程没有贡献。利用匹配结果计算伪监督损失，它由分类损失和回归损失组成:

（2）加权熵损失

4.实验

5.不足

当背景令人困惑时，我们的WEND会失败。因此，未来的工作可能是发现图像的主题，以减少干扰。对于更复杂的数据集ImageNet-1K[25]也是如此:当存在多个对象类别或令人困惑的背景时，算法必须能够找到主要目标。此外，遮挡问题也需要解决。

原文地址：https://blog.csdn.net/qq_52191127/article/details/142764188

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：八款主流图纸加密软件强力推荐｜2024年图纸加密软件最佳选择！
下一篇：头歌实践教学平台大数据编程实训答案（三）

深度学习的应用
深度学习是机器学习的一个子领域，它基于人工神经网络的学习算法，通过模拟人脑的神经网络结构来处理数据和创建模式。深度学习的核心是神经网络，它由多个节点（神经元）和连接这些节点的权重组成。这些节点和权重可
阅读更多2024-10-09
【深度学习基础模型】深度残差网络（Deep Residual Networks, DRN）详细理解并附实现代码。
深度残差网络（Deep Residual Networks, DRN）学习笔记！
阅读更多2024-10-09
JSP简介
可以让你构建复杂的Web应用程序，如在线商店、社交网络或企业级应用。这些应用程序可以处理大量的用户请求，提供个性化的内容，并与数据库进行交互以存储和检索数据。此外，JSP是Java EE（现在称为Ja
阅读更多2024-10-09
LSTM-EAAtention-Transfomer——基于有效附加注意力的时间序列预测
在自然语言处理（NLP）领域，传统的加性注意力机制通过元素乘法而非点积来捕捉令牌间的成对交互，以获取全局上下文信息。这种机制依赖于三个关键的注意力分量——查询（Q）、键（K）和值（V）——来编码输入序
阅读更多2024-10-09
【黑马点评】5 Redisson分布式锁
【黑马点评】5 Redisson分布式锁
阅读更多2024-10-09
【Linux系统编程】第二十九弹---深入探索Linux文件系统：从磁盘存储到inode结构与文件操作
文件系统相关知识，磁盘，inode：引导块(Boot Block)，块组(Block Group)，超级块(Super Block)，块组描述符(GDB)，块位图（Block Bitmap），inod
阅读更多2024-10-09
解决vsstudio2019调用hidsdi.h出现的问题
在调用hidsdi.h库后，编辑器不报错，ctrl也能打开。但是调用里面的方法出现了未定义的报错。利用你自己的渠道，搜索Hid.lib这个文件。到项目-xxx属性-链接器-常规-附加库目录。添加上面复
阅读更多2024-10-09
new Date()解析
JavaScript 中的new Date()构造函数用于创建一个表示日期和时间的对象。Date对象使得你可以以多种方式获取、设置和格式化日期和时间。让我们深入解析一下new Date()及其用法。
阅读更多2024-10-09
ctf.bugku - game1
给了score一个99999分数， sign 为 99999的base 64编码，还是失败；GET请求带有 score、IP、sign 三个参数，最后的flag 应该跟分数有关；同样的，也可以直接打
阅读更多2024-10-09
门窗对象检测系统源码分享
数据集信息展示在本研究中，我们使用了名为“CAD object window door”的数据集，以支持对门窗对象检测系统的改进，特别是针对YOLOv8模型的训练与优化。该数据集专注于两个主要类别：门
阅读更多2024-10-09