【转载】目标检测mAP的含义

🕗 发布于 2024-07-12 19:58 目标检测目标跟踪 人工智能

转载自三叔家的猫
https://blog.csdn.net/qq_39056987
https://blog.csdn.net/qq_39056987/article/details/104348493

            <div id="content_views" class="markdown_views prism-atom-one-light">
                <svg xmlns="http://www.w3.org/2000/svg" style="display: none;">
                    <path stroke-linecap="round" d="M5,0 0,2.5 5,5z" id="raphael-marker-block" style="-webkit-tap-highlight-color: rgba(0, 0, 0, 0);"></path>
                </svg>
                <p>相信大家在看一些目标检测论文中经常会看到作者将自己的模型和其他的模型做了mAP比较，mAP作为目标检测中一个非常重要的评估指标，是对模型好坏的评价标准，当时在看YOLOv3、SSD、Faster R-CNN等这些论文的时候，对mAP还不是很熟悉，看了很多的博文，写得都很零碎，很难理解，虽然大概能明白其原理，但是可能对于很多刚进入这个领域的同学来说，难度还是很大的，刚好这几天被困在家没事做，在复习之前的东西，也重新整理一下本人对mAP的理解，用这篇博客记录下来。</p>

YOLOv3论文中的各个模型的mAP对比图：
在这里插入图片描述
目标检测问题中，每张图片可能包含多个不同类别的不同物体，需要评测模型的分类和定位性能.

因此，图像分类问题中的精度指标是不能直接适用的. 这就是为什么采用 mAP 的原因.

一、理解mAP前要知道的一些基础概念

1.IOU

IoU 的全称为交并比（Intersection over Union），在目标检测中即计算预测边界框与真实边界框的重叠程度，重叠程度越高，说明越接近真实框。IoU 计算的是 “预测的边框” 和 “真实的边框” 的交集和并集的比值，即公式等于：

IOU = 相交的面积 / 相并的面积

在这里插入图片描述

2. 混淆矩阵

混淆矩阵是机器学习中总结分类模型预测结果的情形分析表，以矩阵形式将数据集中的记录按照真实的类别与分类模型预测的类别判断两个标准进行汇总。其中矩阵的行表示真实值，矩阵的列表示预测值，矩阵表现形式，如下：
在这里插入图片描述
为了更好的理解，我们把矩阵中英文翻译成字面信息，True（对）、False（错）、Positive（正例）、Negative（负例），混淆矩阵重新整理一下：

现在我们来分析一下这个混淆矩阵，在mAP计算中，混淆矩阵的概念是非常重要的，如果你这步都没有理解的话，那接下来的mAP计算你肯定也看不懂。

2.1 真正例 TP（True Positives）：

预测结果是True（对），真实值为Positives（正例），模型认为它也是Positives（正例）；在一般情况下，会认为IOU>0.5时为真正例，在一些数据集上的指标也是为0.5；

2.2 假正例 FP（False Positives）

预测结果是False（错），真实值为Negative（负例），模型却认为它是Positives（正例）；同理，一般情况下会认为 IOU<0.5 时为假正例；

2.3 假反例 FN（ False Negatives）

预测结果是False（错），真实值为Positives（正例），模型预测它为Negative（负例）；

2.4 真反例 TN（True Negatives）

预测结果为True（对），真实值为Negative（负例），模型预测它为Negative（负例）；一般用不到这个

理解了混淆矩阵里的元素概念后，我们就可以继续了解以下概念

2.5 准确率（Accuracy）

即表示分类模型所判断的所有结果中，预测正确的结果占比，公式为：
在这里插入图片描述
一般不会作为模型的评估标准；

2.6 精准率或者查准率（precision）

即表示在所有预测值为正例中，有多少正例被预测出来，计算公式为：
在这里插入图片描述
相对于准确率来说，对模型的好坏评估结果会更好，注意和上面的准确率区分；

2.7 召回率（Recall）

即表示所有真实值为正例中有多少被预测出来，可以理解为有多少正确的目标被召回（找出），计算公式为：
在这里插入图片描述
在一些特定场景中，会将其作为模型评估标准；

2.8 平均精度 AP（Average Precision）

PR曲线（红线）以下与横轴、纵轴之间的面积。PR曲线是由Precision（精准率或者查准率）与Recall（召回率或者查全率）构成的曲线，横轴为Recall，纵轴为Precision。
在这里插入图片描述
2.9 mAP（mean Average Precision）

AP衡量的是对一个类检测好坏，mAP就是对多个类的检测好坏。在多类多目标检测中，计算出每个类别的AP后，再除于类别总数，即所有类别AP的平均值，比如有两类，类A的AP值是0.5，类B的AP值是0.2，那么mAP=（0.5+0.2）/2=0.35。

二、mAP计算过程

要计算mAP，首先要计算每一类的AP，比我我们有一个项目，有一个类别检测的是人脸，模型训练完后，我们有一组测试图片，每张图片上都有已经标记好的人脸 label ，这样我们就有了人脸的真实边界框（Ground Truth），在每张图片输入模型后会得到一系列人脸类别的预测边界框，每一个框上面都有一个置信度（暂时不考虑其他类别的框）。

将每张测试图片进行检测后，会得到一系列预测边界框集合，然后将这个预测边界框集合按照置信度降序排序。对于某一张测试图片，我们先计算该图片上人脸类别的预测边界框和真实的边界框的重叠度（IOU），当重叠度（IOU)大于设定的阈值（一般为0.5，可以自己设置）则将该边界框记作真正例（TP），否则记为假正例（FP）。对于测试集中的每一张图片均进行上述的操作（注意：在计算某一张图片的预测框是否为TP时，会从预测框集合中选取出该图片的预测框和真实框做对比）由此可以判定预测边界框集合中的所有预测框属于TP或者是FP。

比如下面三张测试图片，检测的是人脸，绿色框表示真实边界框，红色框表示预测边界框，旁边的红色数字为置信度。

在这里插入图片描述

可以得出三个真实边界框（GT1、GT2、GT3），三个预测框边界框（BBox1，BBox2， BBox3）。

首先按照置信度进行降序排序；
对于每张图片中的预测框计算IOU，可以很清楚的看出：BBox1为TP，BBox2为FP，BBox3为TP；
之后计算不同召回率（Recall）下的精准率（Precision）值。对于第一个预测边界框BBox1，其Precision = TP / (TP+NP)=1/（1+0）=1，Recall = TP / GT(总真实框数）= 1/3，同理，排序后的前两个预测边界框BBox1、BBox3，计算Precision = 1+1 / （1+1）= 1 ，Recall = 2/3，接下来三个预测边界框BBox1、BBox2、BBox3，Precision = 1+1 / （1+1+1）= 2/3 ，Recall = 2/3，这样我们就有了一组Precision、Recall值[（1，1/3），（1，2/3），（2/3，2/3）]
绘制PR曲线如下图，然后每个“峰值点”往左画一条线段直到与上一个峰值点的垂直线相交。这样画出来的黄色线段与坐标轴围起来的面积就是AP值。这里
AP = （1/3 - 0）x 1 + （2/3 - 1/3）x 1 + （1 - 2/3）x 0 = 0.667

按照如上方法计算其他所有类的AP，最后取平均值即为mAP（mean Average Precision）
在这里插入图片描述

其中C表示总类别数目，APi表示第i类的AP值。

三、例子（AP计算）

再通过个例子来更好的理解mAP计算过程，该部分摘自这篇博客，原文链接：目标检测中的评价指标mAP理解及计算

比如说我们的测试集中类A的GT（真实框）有7个，经过目标检测模型预测到了10个边界框，经过上次排序及判断操作，有如下结果：
在这里插入图片描述
按照confidence（置信度）降序排序。从上表TP可以看出我们预测正确5个（TP=5），从FP看出预测错误5个（FP=5）。除了表中已预测到的5个GT，还有2个GT并未被预测出来（FN=2）。
接下来计算AP，计算前*个BBox得到的precision和recall：
在这里插入图片描述
在计算precision和Recall时Rank指的是前个预测边界框的TP和FP之和。

于是我们得到了一个recall阈值列表[0,0.14,0.29,0.43,0.57,0.71,1]，为recall阈值列表中的各值生成对应的precision列表，选择recall>=阈值元素所对应的precision的最大值。为此可得precision列表为[1,1,1,0.5,0.5,0.5,0]。

在这里举个计算的例子吧，比如找recall阈值列表中0.57所对应的precision，当recall>=0.57时，由上表可得precision为max{0.44,0.5}=0.5，其他recall对应precision的选取同理。

有了这两个列表就可以计算类A的AP了：
AP=(0.14−0)∗1+(0.29−0.14)∗1+(0.43−0.29)∗0.5+(0.57−0.43)∗0.5+(0.71−0.57)∗0.5+(1−0.71)∗0=0.5。

同样可以通过绘制PR曲线计算线下面积，如下图所示：
在这里插入图片描述
AP值即浅蓝色图形的面积，蓝色折线为recall、precision点，同理求出其他类的AP，即可算出mAP值。

参考文档：

原文地址：https://blog.csdn.net/coolinfo/article/details/140292933

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：＜数据集＞作物虫害识别数据集＜目标检测＞
下一篇：python如何结束程序运行

leetcode289:生命游戏
根据，简称为，是英国数学家约翰·何顿·康威在 1970 年发明的细胞自动机。给定一个包含m × n个格子的面板，每一个格子都可以看成是一个细胞。每个细胞都具有一个初始状态：1即为（live），或0即为
阅读更多2024-10-20
MongoDB数据恢复
注意：两个MongoDB的版本要一致，本文使用的是mongo:4.2.24。先把K8S上面的MongoDB 容器停止（可以把副本改成0）。1、将容器挂载MongoDB的数据目录备份到本地。经常是数据文
阅读更多2024-10-20
C#中实现事务
C#中实现事务
阅读更多2024-10-20
【LeetCode每日一题】——560.和为 K 的子数组
给你一个整数数组 nums 和一个整数 k ，请你统计并返回该数组中和为 k 的子数组的个数。子数组是数组中元素的连续非空序列。
阅读更多2024-10-20
「漏洞复现」满客宝智慧食堂系统 selectUserByOrgId 未授权访问漏洞
请勿利用文章内的相关技术从事非法测试，由于传播、利用此文所提供的信息而造成的任何直接或者间接的后果及损失，均由使用者本人负责，作者不为此承担任何责任。工具来自网络，安全性自测，如有侵权请联系删除。本次
阅读更多2024-10-20
React面试题目（从基本到高级）
React前端面试常见题目涵盖了React的基础概念、组件、状态管理、生命周期、性能优化等多个方面。
阅读更多2024-10-20
12.个人博客系统（Java项目基于spring和vue）
1 在校学习的学生，可用于日常学习使用或是毕业设计使用 2 毕业一到两年的开发人员，用于锻炼自己的独立功能模块设计能力，增强代码编写能力。 3 亦可以部署为商化项目使用。 4 需要完整资料及源码
阅读更多2024-10-20
YoloV8改进策略：注意力改进|DeBiFormer，可变形双级路由注意力|引入DeBiLevelRoutingAttention注意力模块（全网首发）
本次改进的核心在于将DeBiLevelRoutingAttention模块嵌入到YoloV8的主干网络中，具体位置是在SPPF（Spatial Pyramid Pooling Fast）模块之后。这一
阅读更多2024-10-20
word取消自动单词首字母大写
情况说明：在word输入单词后首字母会自动变成大写取消单词首字母大写步骤：（1）点击菜单栏文件（2）点击“更多”——>“选项”（3）点击“校对”——>“自动更正选项”（4）取消“句首字母大
阅读更多2024-10-20
web前端网页用户注册页面
【代码】web前端网页用户注册页面。
阅读更多2024-10-20