精度论文：【Focaler-IoU: More Focused Intersection over Union Loss】

🕗 发布于 2025-01-17 21:40 深度学习 人工智能 pytorch 计算机视觉 transformer

Focaler-IoU: 更聚焦的交并比损失

Focaler-IoU: More Focused Intersection over Union Loss

Focaler-IoU: 更聚焦的交并比损失
I. 引言
II. 相关工作
III. 方法
IV. 实验
V. 结论

在这里插入图片描述

摘要——边界框回归在目标检测领域中起着至关重要的作用，目标检测的定位精度在很大程度上依赖于边界框回归的损失函数。现有研究通过利用边界框之间的几何关系来提升回归性能，但忽略了困难样本与易样本分布对边界框回归的影响。在本文中，我们分析了困难样本与易样本分布对回归结果的影响，并提出了Focaler-IoU，该方法通过聚焦不同的回归样本，能够在不同的检测任务中提高检测器的性能。最后，我们在不同检测任务中使用现有的先进检测器和回归方法进行了对比实验，结果表明，采用本文提出的方法可以进一步提升检测性能。代码已开源，地址为：https://github.com/malagoutou/Focaler-IoU。
关键词——目标检测，损失函数，边界框回归

I. 引言

目标检测是计算机视觉的基础任务之一，旨在定位和识别图像中的目标。根据是否生成Anchor（锚框），目标检测方法可以分为基于Anchor的方法和无Anchor的方法。基于Anchor的算法包括Faster R-CNN、YOLO（You Only Look Once）系列、SSD（Single Shot MultiBox Detector）和RetinaNet。无Anchor的检测算法包括CornerNet、CenterNet和FCOS（Fully Convolutional One Stage Object Detection）。在这些检测器中，边界框回归的损失函数作为定位分支的重要组成部分，起着不可替代的作用。

A. 边界框回归损失
随着计算机视觉的发展，目标检测任务受到了越来越多研究者的关注。为了评估各种算法在检测任务中的性能，需要引入一个合适的评估指标。在IoU（Intersection over Union）提出之前，早期的边界框回归问题采用ln范数损失作为评估指标。然而，由于ln范数损失对异常值非常敏感，这导致异常值对损失的影响较大，从而在模型中存在异常值时性能会变得不稳定。

为更好地解决上述问题，提出了一种更合适的评估指标：IoU（Intersection over Union）。在基于IoU的评估标准下，大多数目标检测任务的检测精度得到了进一步提升，但IoU损失本身也存在一些缺点。例如，当GT（Ground Truth）框与Anchor框之间没有重叠时，其梯度会消失，无法准确表征两个边界框之间的位置关系。

为弥补这一不足，GIoU提出使用包含GT框和Anchor框的最小外接框来计算损失，从而提升检测性能。在CIoU和DIoU中，为了弥补GIoU收敛速度慢的缺点，CIoU通过进一步考虑GT框与Anchor框之间的宽高比来加速收敛，而DIoU则通过对两个边界框中心点之间的距离进行归一化来加速收敛。EIoU在CIoU的基础上进一步考虑了形状损失，通过最小化GT框和Anchor框宽度与高度的差异来加速收敛，而SIoU进一步考虑了连接两个边界框中心的线的角度，并根据该角度重新定义了距离损失和形状损失，将其作为新的损失项添加到损失函数中。SIoU在当前基于IoU的损失函数中实现了最好的检测效果。

B. Focal Loss
在边界回归过程中，训练样本不平衡问题依然存在。根据是否包含目标类别，训练样本可以分为正样本和负样本。一些传统的解决方法是在训练过程中对困难样本进行采样和重新加权，但这种方法的效果并不显著。

Focal Loss提出，容易识别的负样本占总损失的主要部分，并主导了梯度。通过调整正样本和负样本的权重，Focal Loss提高了模型识别稀有目标类别的能力，使模型更多地关注难以分类的正样本，同时降低相对容易分类的负样本的权重。在Libra R-CNN中，提出了一个简单而有效的平衡学习框架，使用Balanced L1损失在目标层面上将训练样本分为异常值和正常值。异常值被视为困难样本，与正常值相比会产生更大的梯度，这对训练过程有害。因此，Libra R-CNN通过梯度回归促进正常值，并裁剪由异常值产生的过大梯度，以实现更好的分类效果。

在EIoU中，训练样本被分为高质量样本（anchors）和低质量样本（异常值），并基于L1损失提出了FocalL1损失，以增加高质量样本对训练过程的梯度贡献。同时，将EIoU损失作为一个变量添加到FocalL1损失中，使模型能够更加关注高质量样本，从而进一步提升检测效果。

本文的主要贡献如下：

我们分析了困难样本和易样本分布对边界框回归的影响，并在现有边界框回归方法的基础上，提出了Focaler-IoU，通过线性区间映射来聚焦不同的回归样本。
我们使用先进的一阶段检测器进行了实验，验证了我们的方法可以有效提高检测性能，并弥补现有方法的不足。

II. 相关工作

近年来，随着检测器的发展，边界回归损失得到了快速发展。最初，IoU被提出用于评估边界回归状态，随后在IoU的基础上，陆续提出了新的约束条件，如GIoU、DIoU、CIoU、EIoU和SIoU等。

A. IoU指标
IoU（Intersection over Union）是最流行的目标检测评价标准，其定义如下：
$\text{IoU} = \frac{|B \cap B_{gt}|}{|B \cup B_{gt}|}$
其中， $B$ 和 $B_{gt}$ 分别表示预测框和GT（Ground Truth）框。

B. GIoU指标
为了解决在边界框回归中，由于GT框和Anchor框之间没有重叠导致IoU损失出现梯度消失的问题，提出了GIoU（广义交并比）。其定义如下：
$\text{GIoU} = \text{IoU} - \frac{|C - B \cap B_{gt}|}{|C|}$
其中， $C$ 表示包含GT框和Anchor框的最小外接框。

C. DIoU指标
与GIoU相比，DIoU（距离交并比）引入了边界框之间的距离约束，通过在IoU的基础上添加中心点归一化距离损失项，使回归结果更加准确。其定义如下：
$\text{DIoU} = \text{IoU} - \frac{\rho^2(b, b_{gt})}{c^2}$
其中， $b$ 和 $b_{gt}$ 分别表示Anchor框和GT框的中心点， $\rho(·)$ 表示欧几里得距离， $c$ 为 $b$ 和 $b_{gt}$ 之间最小外接框的对角线距离。
CIoU进一步通过在DIoU的基础上添加新的形状损失项，考虑了GT框和Anchor框之间的形状相似性，以减少Anchor框和GT框之间的长宽比差异。其定义如下：
$\text{CIoU} = \text{IoU} - \frac{\rho^2(b, b_{gt})}{c^2} - \alpha v$
其中，
$\alpha = v \left( 1 - \text{IoU} \right) + v$
$\frac{4}{\pi^2} \left( \arctan \frac{w_{gt}}{h_{gt}} - \arctan \frac{w}{h} \right)^2$
其中， $w_{gt}$ 和 $h_{gt}$ 分别表示GT框的宽度和高度， $w$ 和 $h$ 分别表示Anchor框的宽度和高度。
D. EIoU度量
EIoU在CIoU的基础上重新定义了形状损失，并通过直接减少GT框和Anchor框之间的长宽差异来进一步提高检测精度。其定义如下：
$\text{EIoU} = \text{IoU} - \frac{\rho^2(b, b_{gt})}{c^2} - \frac{\rho^2(w, w_{gt})}{(w_c)^2} - \frac{\rho^2(h, h_{gt})}{(h_c)^2}$
其中，( w_c ) 和 ( h_c ) 是覆盖GT框和Anchor框的最小外接框的宽度和高度。

E. SIoU度量
在前期研究的基础上，SIoU进一步考虑了边界框之间角度对边界框回归的影响，其目标是通过减小Anchor框和GT框之间的角度（即水平或垂直方向）来加速收敛过程。其定义如下：
$\text{SIoU} = \text{IoU} - \frac{\Delta + \Omega}{2}$
其中，
$\Lambda = \sin \left( 2 \sin^{-1} \left( \min \left( |x_{gt}^c - x_c|, |y_{gt}^c - y_c| \right) \right) \right)$
$\left( (x_{gt}^c - x_c)^2 + (y_{gt}^c - y_c)^2 + \epsilon \right)$
$\Delta = \sum_{t=w,h} \left( 1 - e^{-\gamma \rho_t} \right), \quad \gamma = 2 - \Lambda$
$\rho_x = \left( \frac{x_c - x_{gt}^c}{w_c} \right)^2, \quad \rho_y = \left( \frac{y_c - y_{gt}^c}{h_c} \right)^2$
$\Omega = \sum_{t=w,h} \left( 1 - e^{-\omega_t} \right) \theta, \quad \theta = 4$
$\omega_w = \frac{|w - w_{gt}|}{\max(w, w_{gt})}, \quad \omega_h = \frac{|h - h_{gt}|}{\max(h, h_{gt})}$

III. 方法

A. 分析
在各种目标检测任务中，样本不平衡问题普遍存在，可以根据物体检测的难易程度将样本分为“困难样本”和“简单样本”。从目标尺度分析的角度来看，一般的检测目标可以视为简单样本，而极小的目标由于定位困难，可以视为困难样本。对于以简单样本为主的检测任务，在边框回归过程中专注于简单样本有助于提高检测性能。相反，对于困难样本比例较高的检测任务，需要专注于困难样本的边框回归。

B. Focaler-IoU
为了能够专注于不同的回归样本，并改进检测任务，我们使用线性区间映射方法来重构IoU损失，从而改善边界回归。其重构公式如下：

$\text{IoU}_{\text{focaler}} = \begin{cases} 0, & \text{IoU} < d \\ \frac{\text{IoU} - d}{u - d}, & d \ll \text{IoU} \ll u \\ 1, & \text{IoU} > u \end{cases}$

其中， $\text{IoU}_{\text{focaler}}$ 是重构后的 Focaler-IoU， $\in [0, 1]$ 。通过调整 $d$ 和 $u$ 的值，可以使 $\text{IoU}_{\text{focaler}}$ 专注于不同的回归样本。其损失定义为：

$L_{\text{Focaler-IoU}} = 1 - \text{IoU}_{\text{focaler}}$
将Focaler-IoU损失应用于现有的基于IoU的边框回归损失函数，得出以下损失函数：

$L_{\text{Focaler-GIoU}} = L_{\text{GIoU}} + \text{IoU} - \text{IoU}_{\text{focaler}} \quad \text{}$

$L_{\text{Focaler-DIoU}} = L_{\text{DIoU}} + \text{IoU} - \text{IoU}_{\text{focaler}} \quad \text{}$

$L_{\text{Focaler-CIoU}} = L_{\text{CIoU}} + \text{IoU} - \text{IoU}_{\text{focaler}} \quad \text{}$

$L_{\text{Focaler-EIoU}} = L_{\text{EIoU}} + \text{IoU} - \text{IoU}_{\text{focaler}} \quad \text{}$

$L_{\text{Focaler-SIoU}} = L_{\text{SIoU}} + \text{IoU} - \text{IoU}_{\text{focaler}} \quad \text{}$

IV. 实验

A. PASCAL VOC 上的 YOLOv8
PASCAL VOC 数据集是目标检测领域最受欢迎的数据集之一，在本文中我们使用 VOC 2007 和 VOC 2012 的训练集和验证集，共计 16551 张图片，测试集选用 VOC 2007，共 4952 张图片。在本实验中，我们选择了最新的单阶段检测器 YOLOv8s 和 YOLOv7-tiny 进行 VOC 数据集上的对比实验，SIoU 被选为实验中的对比方法。实验结果如表 I 所示。

表 I：SIoU 和 Focaler-SIoU 在 YOLOv8 上的性能对比
在这里插入图片描述

B. YOLOv5 上的 AI-TOD 实验
AI-TOD 是一个遥感图像数据集，与一般数据集不同的是，它包含大量小型目标，且目标的平均尺寸仅为 12.8 像素。在此实验中，选择 YOLOv5s 作为检测器，比较方法为 SIoU。实验结果如表 II 所示：

表 II：SIoU 和 Focaler-SIoU 在 YOLOv5 上的性能
在这里插入图片描述

V. 结论

本文分析了难易样本分布对目标检测的影响。当难样本占主导时，需要重点关注难样本，以提高检测性能。而当简单样本的比例较大时，情况则相反。接下来，我们提出了Focaler-IoU方法，通过线性区间映射重构原始的IoU损失，以实现聚焦于难易样本的目标。最后，通过对比实验证明，所提出的方法能够有效地提升检测性能。

原文地址：https://blog.csdn.net/zzzyyy8/article/details/145190187

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：docker-compose
下一篇：组播PIM-原理介绍+报文分析+配置示例

《深度学习神经网络训练：数据集下载资源列表》
数据集下载在科研、开发等诸多领域都具有举足轻重的地位。通过本文，我们全面了解了丰富多样的数据集资源，涵盖目标检测、图像分类、语义分割、人体姿态估计、医学图像、自动驾驶等多个关键领域。这些数据集为各领域
阅读更多2025-01-18
Git版本控制 – 创建和维护项目Repository
本文简要介绍了Git工具的使用，以及用命令创建Repository的过程。希望对读者有所帮助。
阅读更多2025-01-18
如何修改React 项目版本
【代码】如何修改React 项目版本。
阅读更多2025-01-18
Python AI教程之二十一：监督学习之支持向量机（SVM）算法
支持向量机(SVM)是一种功能强大的机器学习算法，广泛用于线性和非线性分类以及回归和异常值检测任务。SVM 具有很强的适应性，适用于各种应用，例如文本分类、图像分类、垃圾邮件检测、笔迹识别、基因表达分
阅读更多2025-01-18
【2024年华为OD机试】(B卷,100分)- IPv4地址转换成整数（Java & JS & Python&C/C++）
这段代码有效地将 IP 地址从字符串形式转换为整数表示，并进行了有效性验证。通过将 IP 的四个部分转换为十六进制，可以用来进一步进行网络相关的计算或验证。此代码结构清晰，并使用了正则表达式和简单的字
阅读更多2025-01-18
dockerhub上一些镜像
【代码】dockerhub上一些镜像。
阅读更多2025-01-18
1.Spring AI 从入门到实践
Ben技术站关注Java技术，LLM，计算机科学等内容。关注会持续更新推送详细教程内容和源码。
阅读更多2025-01-18
Haskell语言的网络编程
Haskell是一种标准化的、纯粹的函数式编程语言，以其高阶函数、惰性求值和类型推导等特性著称。Haskell不仅适合用于学术研究，而且在实际应用中也表现出了良好的性能与健壮性。由于类型系统的强大，H
阅读更多2025-01-18
gesp(C++五级)（2）洛谷：B3951：[GESP样题五级] 小杨的队列
gesp(C++五级)（2）洛谷：B3951：[GESP样题五级] 小杨的队列
阅读更多2025-01-18
Java 开发常见面试题3
单文档操作：Elasticsearch 支持原子性。多文档操作：Elasticsearch 不支持事务一致性。如果需要事务能力，可以：使用关系型数据库处理事务，ES 作为辅助搜索引擎。借助分布式事务框
阅读更多2025-01-18