论文速读：基于概率教师学习的域自适应目标检测

🕗 发布于 2024-10-12 14:14 目标检测计算机视觉域自适应目标检测领域迁移 人工智能

原文标题：Learning Domain Adaptive Object Detection with Probabilistic Teacher

中文标题：基于概率教师学习的域自适应目标检测

代码地址： GitHub - hikvision-research/ProbabilisticTeacher: An official implementation of ICML 2022 paper "Learning Domain Adaptive Object Detection with Probabilistic Teacher"."

论文地址： https://arxiv.org/abs/2206.06293

1、摘要

无监督域自适应目标检测的自训练是一项具有挑战性的任务，其性能在很大程度上取决于伪标签框（pseudo boxes）的质量。尽管取得了令人鼓舞的结果，但之前的工作在很大程度上忽略了自我训练过程中伪标签框的不确定性。在本文中，作者提出了一个简单而有效的框架，称为概率教师(PT)，旨在从逐渐发展的教师中捕捉未标记目标数据的不确定性，并以互利的方式指导学生的学习。具体来说，作者建议利用不确定性指导的一致性训练来促进分类适应和定位适应，而不是通过精心设计的置信度阈值过滤伪框。此外，作者将锚点自适应与定位自适应并行进行，因为锚点可以看作是一个可学习的参数。与此框架一起，作者还提出了一种新的熵焦点损失(EFL)，以进一步促进不确定性引导的自我训练。配备了EFL, PT比以前的所有基线都要好得多，达到了最新的水平。

2、研究背景

在目标检测任务中，卷积神经网络（CNN）在大规模高质量标注数据上表现卓越。然而，当模型部署到未见过的数据上时，比如不同的天气条件、光照变化或图像损坏等，模型性能会显著下降。为了解决这个问题，提出了无监督域自适应目标检测（UDA-OD）方法，目的是将预训练的模型从标记的源域迁移到未标记的目标域。

3、面临的问题

现有的自训练方法在UDA-OD中依赖于高质量的伪标签框（pseudo boxes），但这些方法很大程度上忽略了自训练过程中伪标签框的不确定性。此外，现有的方法依赖于精心设计的置信度阈值来过滤伪标签，这在没有标注的目标数据可用于阈值调整的情况下是不切实际的。

4、提出的办法

文章提出了一种名为“概率教师”（Probabilistic Teacher, PT）的框架，它通过捕获来自逐渐演变的老师模型的未标记目标数据的不确定性，并以互惠的方式指导学生模型的学习。PT框架不依赖于复杂的置信度阈值，而是利用不确定性引导的一致性训练来促进分类适应和定位适应。此外，文章还提出了一种新颖的熵焦点损失（Entropy Focal Loss, EFL），以进一步促进不确定性引导的自训练。

5、解决的问题

PT框架解决了在UDA-OD设置中，没有标注的目标数据可用于阈值调整的问题。它通过不确定性引导的方法，动态地处理自训练过程中的噪声伪标签，而不是简单地过滤掉它们。

6、取得的效果

PT框架在多个源基/无源UDA-OD基准测试中取得了新的最先进结果，并且与以前的基线相比有了显著的改进。特别是在“正常到雾天”的适应任务中，PT框架通过简单的自训练机制就实现了最先进的结果。

7、总结

文章通过提出概率教师（PT）框架和熵焦点损失（EFL），在无监督域自适应目标检测领域取得了突破性进展。PT框架通过不确定性引导的自训练，有效地处理了目标域中未标记数据的适应问题，提高了模型在不同域之间的泛化能力。

8、伪标签框具体生成过程

8.1、预训练阶段（Pretraining）

- 首先，使用标记的源域数据训练目标检测模型（例如 Faster R-CNN），以初始化检测器。

- 训练完成后，将训练得到的模型权重复制给教师模型（teacher model）和学生模型（student model）。

8.2、互学习阶段（Mutual Learning）

- 教师模型预测：使用教师模型对未标记的目标域数据进行预测，生成伪标签框。这些伪标签框包括类别和定位的概率分布。

- 不确定性表示：利用概率模型（如高斯分布）表示每个预测框的类别和位置，从而捕获预测的不确定性。

8.3、不确定性引导的一致性训练（Uncertainty-Guided Consistency Training）

- 类别和定位概率分布：教师模型为每个预测框生成类别概率分布和定位坐标的概率分布（例如，使用高斯分布表示）。

- 概率分布的锐化（Sharpening）：对生成的类别和定位概率分布进行锐化处理，以指导学生模型的训练。锐化是通过调整概率分布的熵来实现的，使得模型更加自信。

8.4、熵焦点损失（Entropy Focal Loss, EFL）

- 熵的计算：对于每个预测框，计算其类别和定位的熵，以此作为不确定性的度量。

- 损失函数的设计：EFL利用这些熵信息来加权损失函数，使得模型更加关注那些不确定性较低（即预测更准确）的预测框。

8.5、教师模型的更新

- 指数移动平均（Exponential Moving Average, EMA）：**学生模型学到的知识通过EMA的方式传递给教师模型，从而不断更新教师模型的权重。

8.6、锚点适应（Anchor Adaptation）

- 锚点作为可学习的参数：** 在训练过程中，自动调整锚点的形状以适应目标域中框的尺寸分布。

通过上述步骤，PT框架能够动态地生成和优化伪标签框，同时考虑到预测的不确定性，从而在没有标注的目标域上有效地训练目标检测模型。这种方法特别适用于无监督域自适应目标检测任务，其中没有标注的目标数据可用于调整置信度阈值。

9、什么是概率教师

“概率教师”（Probabilistic Teacher, PT）是文章中提出的一种用于无监督域自适应目标检测（UDA-OD）的框架。这个框架的核心思想是利用一个逐渐演化的教师模型来捕获未标记目标数据的不确定性，并通过不确定性引导的一致性训练来指导学生模型的学习。以下是PT框架的关键特点：

1. 双模型结构：PT框架包含两个模型，即教师模型和学生模型。教师模型用于生成未标记目标数据的伪标签，而学生模型则使用这些伪标签进行训练。

2. 不确定性的表示与利用：在PT中，预测的类别和定位信息都表示为概率分布（如高斯分布），从而能够捕获预测的不确定性。这些不确定性信息被用来引导模型的训练，使其更加关注那些预测较为确定的样本。

3. 不确定性引导的一致性训练：PT框架通过比较教师模型和学生模型的预测来训练学生模型，这种比较是基于不确定性的，目的是促进两个模型之间的知识传递。

4. 熵焦点损失（Entropy Focal Loss, EFL）：为了进一步促进不确定性引导的自训练，PT设计了一种新的损失函数EFL。这个损失函数使用预测的熵来加权损失，鼓励模型更加关注那些不确定性较低的预测。

5. 无缝扩展到无源域自适应设置：PT框架可以无缝扩展到无需源数据的UDA-OD设置中，这在隐私敏感的应用场景中非常有用。

6. 锚点适应：PT框架还提出了一种锚点适应的方法，自动调整锚点的形状以适应目标域中框的尺寸分布，从而提高检测的准确性。

总的来说，概率教师（PT）通过模拟教师-学生之间的教学过程，利用概率模型来表示预测的不确定性，并设计了新颖的损失函数来提高无监督域自适应目标检测的性能。

原文地址：https://blog.csdn.net/m0_63294504/article/details/142766873

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

开发指南072-图片热点
/处理跳转： area.getAttribute('href');平台支持使用图像导航界面，例如展示如下一张图，用户点击对应位置触发对应动作。热点数据通过后台接口获取（注意处理权限，没有权限的热点不生
阅读更多2024-10-13
使用机器学习边缘设备的快速目标检测
这项机器学习研究探讨了一种低成本的边缘设备，该设备与具有计算机视觉功能的嵌入式系统集成，以提高目标检测和分类的推理时间和精度。研究的主要目标是减少推理时间并降低功耗，以支持一个竞技型类人机器人的嵌入式
阅读更多2024-10-13
【Windows】【DevOps】Windows Server 2022 安装ansible，基于powershell实现远程自动化运维部署入门到放弃！
文件URL：https://www.python.org/ftp/python/3.13.0/python-3.13.0-amd64.exe。直接拿linux主机测试ansible连接windows
阅读更多2024-10-13
C# 中循环的应用说明
一循环的概念说明二、循环类型三、循环控制语句四、无限循环
阅读更多2024-10-13
Linux `vmstat` 命令详解
vmstat（Virtual Memory Statistics）是 Linux 系统中的一个监控工具，用于报告系统的虚拟内存、进程、CPU 活动等信息。它能帮助用户了解系统的整体性能状况，尤其是内存
阅读更多2024-10-13
Linux下多任务编程（网络编程2）
本文介绍解决accpet和recv相互阻塞的问题，可以用多线程并发外也可以用epoll I/O多路复用的方式解决。
阅读更多2024-10-13
[单master节点k8s部署]37.微服务（一)springCloud 微服务
微服务架构的一个重要特点是，它与开发中使用的具体或无关。每个微服务都可以使用最适合其功能需求的语言或技术来实现。例如，一个微服务可以用Java编写，另一个微服务可以用Python、Go、Node.js
阅读更多2024-10-13
Zynq(3)使用外设MIO/EMIO
使用MIO/EMIO实现流水灯，着重介绍Zynq IP核的配置，解读vitis中的c语言程序，介绍MIO与EMIO的区别。
阅读更多2024-10-13
笔试算法总结
思路很简单，但是当时做题提交的时候，通过率总是18%。不知道为啥，后面我改成了Long类型，然后就通过了全部用例。（易错1：第一次提交没考虑0的情况）使用 StringBuilder 模拟栈的行为，通
阅读更多2024-10-13
快速学习一个算法，Transformer模型架构
它的主要思想是在同一时间通过多个独立的注意力头（Attention Head）来关注序列中不同部分的信息，然后将这些信息综合起来，生成更丰富的表示。自注意力机制的目的是对输入序列中的每个元素计算一个输
阅读更多2024-10-13