《目标检测》R-CNN网络基础（RCNN，Fast-RCNN）

🕗 发布于 2024-11-15 10:57 目标检测 r语言 cnn

文章目录

1.Overfeat模型
2.RCNN网络
3.Fast RCNN模型

学习目标：

了解Overfeat模型的移动窗口方法
了解RCNN目标检测的思想
了解fastRCNN目标检测的思想
知道多任务损失

1.Overfeat模型

Overfeat⽅法使⽤滑动窗⼝进⾏⽬标检测，也就是使⽤滑动窗⼝和神经⽹络来检测⽬标。滑动窗⼝使⽤ 固定宽度和高度 的矩形区域，在图像上“滑动”，并将扫描结果送⼊到神经⽹络中进⾏分类和回归。
例如要检测汽⻋，就使⽤下图中红⾊滑动窗⼝进⾏扫描，将所有的扫描结果送⼊⽹络中进⾏分类和回归，得到最终的汽⻋的检测结果。

这种⽅法类似⼀种暴⼒穷举的⽅式，会消耗⼤量的计算⼒，并且由于窗⼝⼤⼩问题可能会造成效果不准确。

2.RCNN网络

2014年提出R-CNN⽹络，该⽹络不再使⽤暴⼒穷举的⽅法，⽽是使⽤候选区域方法（region proposal method）创建⽬标检测的区域来完成⽬标检测的任务，R-CNN是以深度神经⽹络为基础的⽬标检测的模型，以R-CNN为基点，后续的Fast R-CNN、Faster R-CNN模型都延续了这种⽬标检测思路。

2.1 算法流程

RCNN的流程如下图所示：
在这里插入图片描述
Step：

候选区域⽣成：使⽤选择性搜索（Selective Search）的⽅法找出图⽚中可能存在⽬标的侯选区域
CNN⽹络提取特征：选取预训练卷积神经⽹⽹络（AlexNet或VGG）⽤于进⾏特征提取。
⽬标分类：训练⽀持向量机（SVM）来辨别⽬标物体和背景，对每个类别，都要训练⼀个⼆元SVM。
⽬标定位：训练⼀个线性回归模型，为每个辨识到的物体⽣成更精确的边界框。

2.1.1 候选区域的生成（了解，已经不再使用了）

在选择性搜索（SelectiveSearch，SS）中，使⽤语义分割的⽅法，它将颜⾊、边界、纹理等信息作为合并条件，采⽤多尺度的综合⽅法，将图像
在像素级上划分出⼀系列的区域，这些区域要远远少于传统的滑动窗⼝的穷举法产⽣的候选区域。
在这里插入图片描述
SelectiveSearch在⼀张图⽚上提取出来约2000个侯选区域，需要注意的是这些候选区域的⻓宽不固定。⽽使⽤CNN提取候选区域的特征向量，
需要接受固定⻓度的输⼊，所以需要对候选区域做⼀些尺⼨上的修改。

根据图像像素点的相似性，分割成不同的子区域，获取外包矩形。

2.1.2 CNN网络提取特征

采⽤预训练模型(AlexNet或VGG)在⽣成的候选区域上进⾏特征提取，将提取好的特征保存在磁盘中，⽤于后续步骤的分类和回归。
在这里插入图片描述

全连接层的输⼊数据的尺⼨是固定的，因此在将候选区域送⼊CNN⽹络中时，需进⾏裁剪或变形为固定的尺⼨，在进⾏特征提取。
预训练模型在ImageNet数据集上获得，最后的全连接层是1000，在这⾥我们需要将其改为N+1(N为⽬标类别的数⽬，例如VOC数据集中N=20，coco数据集中N=80，1是加⼀个背景)后，进⾏微调即可。
利⽤微调后的CNN⽹络，提取每⼀个候选区域的特征，获取⼀个4096维的特征，⼀幅图像就是2000x4096维特征存储到磁盘中。

2.1.3 目标分类（SVM）

SVM是一个二分类分类器，实现多分类时需要使用多个SVM来完成，用来判断每个候选区域的类别。

利⽤微调后的CNN⽹络，提取每⼀个候选区域的特征，获取⼀个4096维的特征，⼀幅图像就是2000x4096维特征存储到磁盘中。
在这里插入图片描述
对于N个类别的检测任务，需要训练N（⽬标类别数⽬）个SVM分类器，对候选区域的特征向量（4096维）进行二分类，判断其是某⼀类别的⽬标，还是背景来完成⽬标分类。

2.1.4 目标回归（线性回归修正坐标）

通过选择性搜索获取的⽬标位置不是⾮常的准确，实验证明，训练⼀个线性回归模型在给定的候选区域的结果上去预测⼀个新的检测窗⼝，能够获得更精确的位置。修正过程如下图所示：
在这里插入图片描述
通过训练⼀个回归器来对候选区域的范围进⾏⼀个调整，这些候选区域最开始只是⽤选择性搜索的⽅法粗略得到的，通过调整之后得到更精确的位置，如下所示：

红色框表示候选区域生成的结果（SS），绿色的时标注框（真实结果），蓝色框时经过线性回归模型（wx+b变换）后的框，我们的目的是修正候选区域（绿色），不断靠近真实框（绿色）。

目的：训练一个线性回归模型，用这个模型修正这个候选区域，得到一个更精确的结果。

2.1.5 预测过程

使⽤选择性搜索的⽅法从⼀张图⽚中提取2000个候选区域，将每个区域送⼊CNN⽹络中进⾏特征提取，然后送⼊到SVM中进⾏分类，并使⽤候选
框回归器，计算出每个候选区域的位置。候选区域较多，有2000个，需要剔除掉部分检测结果。针对每个类，通过计算IOU,采取⾮最⼤值抑制
NMS的⽅法，保留⽐较好的检测结果。

2.2 算法总结

训练阶段多，训练耗时：微调CNN⽹络+训练SVM+训练边框回归器。
预测速度慢: 使⽤GPU, VGG16模型处理⼀张图像需要47s。
占⽤磁盘空间⼤：5000张图像产⽣⼏百G的特征⽂件。
数据的形状变化：候选区域要经过缩放来固定⼤⼩，⽆法保证⽬标的不变形

3.Fast RCNN模型

考虑到R-CNN存在的问题，2015年提出了⼀个改善模型:Fast R-CNN。相⽐于R-CNN, Fast R-CNN主要在以下三个⽅⾯进⾏了改进：

提⾼训练和预测的速度：R-CNN⾸先从测试图中提取2000个候选区域，然后将这2000个候选区域分别输⼊到预训练好的CNN中提取特征。由于候选区域有⼤量的重叠，这种提取特征的⽅法，就会重复的计算重叠区域的特征。在Fast-RCNN中，将整张图输⼊到CNN中提取特征，将候选区域映射到特征图上，这样就避免了对图像区域进⾏重复处理，提⾼效率减少时间。
不需要额外的空间保存CNN⽹络提取的特征向量：RCNN中需要将提取到的特征保存下来，⽤于为每个类训练单独的SVM分类器和边框回归器。在Fast-RCNN中，将类别判断和边框回归统⼀使⽤CNN实现，不需要在额外的空间存储特征。
不在直接对候选区域进⾏缩放：RCNN中需要对候选区域进⾏缩放送⼊CNN中进⾏特征提取，在Fast-RCNN中使⽤ROIpooling的⽅法进⾏尺⼨的调整。

3.1 算法流程

Fast-RCNN的流程如下图所示：
在这里插入图片描述
Step：

候选区域⽣成：使⽤选择性搜索（Selective Search）的⽅法找出图⽚中可能存在⽬标的侯选区域，只需要候选区域的位置信息
CNN⽹络特征提取：将整张图像输⼊到CNN⽹络中，得到整副图的特征图，并将上⼀步获取的候选区域位置从原图映射到该特征图上
ROIPooling: 对于每个特征图上候选框，RoI pooling层从特征图中提取固定⻓度的特征向量每个特征向量被送⼊⼀系列全连接（fc）层中。
⽬标检测：分两部分完成，⼀个输出各类别加上1个背景类别的Softmax概率估计，另⼀个为各类别的每⼀个类别输出四个实数值，来确定⽬标的位置信息。

第一步是一样的，不在赘述。但是第二步在CNN网络提取时，我们是把整幅图像送到预训练模型中进行特征提取的。

3.1.1 ROI Pooling

候选区域从原图映射到特征图中后，进⾏ROI Pooling的计算，如下图所示：
在这里插入图片描述
Step：

将候选框区域映射到特征图中得到对应的候选框
对每一个特征图中的候选框进行POI Pooling（将候选框划分成HW的子网格，H和W都是超参数，在每个子网格中取最大值，之后我们就获取了HW的特征图，再送入到网络中）

ROI Pooling层使⽤最⼤池化将输⼊的特征图中的任意区域（候选区域对应的区域）内的特征转化为固定的𝐻×𝑊的特征图，其中𝐻和𝑊是超参数。
对于任意输⼊的ℎ×𝑤的候选区域，将其分割为𝐻×𝑊的⼦⽹格，每个⼦⽹格的⼤⼩为：(h/H) x (w/W)，取每个⼦⽹格中的最⼤值，送⼊后续⽹络中进⾏处理。
在这里插入图片描述
使⽤ROI Pooling层替换预训练⽹络中最后的池化层，并将并将超参𝐻,𝑊设置为和⽹络第⼀个全连接兼容的值，例如VGG16，设𝐻=𝑊=7。

3.1.2 ⽬标分类和回归

原⽹络的最后⼀个全连接层替换为两个同级层:K+1个类别的SoftMax分类层和边框的回归层。

3.2 模型训练

R-CNN中的特征提取和检测部分是分开进⾏的，Fast R-CNN提出⼀个⾼效的训练⽅法：多任务训练。

Fast R-CNN有两种输出：

⼀部分输出在K+1个类别上的离散概率分布（每个候选区域）， $p = (p 0, p 1, ..., p k)$ 。通常，通过全连接层的K+1个输出上的Softmax来计算概率值。
另⼀部分输出对于由K个类别中的每⼀个检测框回归偏移， $t^{k}=(t{x}^{k},t{y}^{k},t{w}^{k},t{h}^{k})$ 。其中 $t_k$ 指定相对于候选框的尺度不变转换和对数空间⾼度/宽度移位。

将上⾯的两个任务的损失函数放在⼀起:
在这里插入图片描述
p0表示的是背景，所以我们只计算u>=1的。

联合训练fast-RCNN⽹络。具体的我们在后续给⼤家进⾏介绍。

3.3 模型预测

Fast-RCNN的⼯作流程描述如下：

输入的图像
在这里插入图片描述
图像被送⼊到卷积⽹络进⾏特征提取，将通过选择性搜索获取的候选区域映射到特征图中：

在特征图上Rol中应⽤RoIPooling，获取尺⼨相同的特征向量

将这些区域传递到全连接的⽹络中进⾏分类和回归，得到⽬标检测的结果。
在这里插入图片描述

3.4 模型总结

Fast R-CNN是对R-CNN模型的⼀种改进：

CNN⽹络不再对每个候选区域进⾏特征提取，⽽是直接对整张图像进⾏特征提取，这样减少了很多重复计算。
⽤ROI pooling进⾏特征的尺⼨变换，来满⾜FC全连接层对输⼊数据尺度的要求。
将⽬标的回归和分类统⼀在⼀个⽹络中，使⽤FC+softmax进⾏⽬标分类，使⽤FC Layer进⾏⽬标框的回归。

在Fast R-CNN中使⽤的⽬标检测识别⽹络，在速度和精度上都有了不错的结果。不⾜的是，其候选区域提取⽅法耗时较⻓，⽽且和⽬标检测⽹络
是分离的，并不是端到端的，在2016年⼜提出了Faster-RCNN模型⽤于⽬标检测。

原文地址：https://blog.csdn.net/qq_59702185/article/details/143778234

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：目标检测评估指标详解
下一篇：第5章: 图像变换与仿射操作

《FreeRTOS任务基础知识篇》
FreeRTOS任务基础知识。
阅读更多2024-11-15
智谱AI清影升级:引领AI视频进入音效新时代
拟人虎，动物时尚秀，全身，穿着时尚的衣服和精美配饰，拟人化，高端设计风格，苗条的身体，正面，冷酷而高贵，米兰时装秀，动态捕捉T台秀，面对相机，全景镜头，栩栩如生，正在走秀，豪华的T台背景，极精细，广角
阅读更多2024-11-15
安全见闻 -- 量子计算
总之，量子计算安全是一个复杂领域，需要综合运行物理学、计算机科学、密码学等多学科知识进行学习和研究。通过了解漏洞风险并采用适当的测试方法，可以更好地保障量子信息系统的安全。
阅读更多2024-11-15
DVWA靶场通关——SQL Injection篇
该PHP代码的主要功能是根据用户提供的id参数，从数据库中查询对应的用户信息（包括first_name和last_name），并将查询结果显示给用户。在第二段代码中，$id 变量同样从 $_POST
阅读更多2024-11-15
如何解决“无法在 ‘HTMLElement‘ 上设置 ‘innerText‘ 属性”的问题
类型断言：将元素断言为支持innerText的类型。使用：一个更兼容的文本内容设置方法。类型检查：利用instanceof确保类型正确后再操作。：直接创建并插入文本节点，适合动态内容插入。以上四种方法
阅读更多2024-11-15
API 数据处理与 SQL 批量更新技巧：CASE 语句优化操作指南
在现代应用程序开发中，数据处理和数据库操作是不可或缺的一部分。特别是在处理大量数据时，如何高效地更新数据库记录成为了关键问题。本文将对比两种常见的数据库更新方法：一种是使用CASE语句进行批量更新，另
阅读更多2024-11-15
如何解决JAVA程序通过obloader并发导数导致系统夯住的问题 | OceanBase 运维实践
在并发导数据到OceanBase的场景，系统出现大量obloader 进程，应用java 程序夯住不可用，最终导致容器OOM重启。本文介绍了整个案例的问题排查过程，以及相应的解决方案。
阅读更多2024-11-15
区块链智能合约开发：全面解析与实践指南
尽管智能合约的开发面临一定的挑战，但随着技术的成熟与生态的完善，智能合约的应用场景会越来越广泛，从DeFi到NFT，再到供应链和保险等领域，智能合约正在为各行各业带来创新和变革。与传统合约不同，智能合
阅读更多2024-11-15
Axure设计之文本编辑器制作教程
文本编辑器是一个功能强大的工具，允许用户在图形界面中创建和编辑文本的格式和布局，如字体样式、大小、颜色、对齐方式等，在Web端实际项目中，文本编辑器的使用非常频繁。
阅读更多2024-11-15
PyTorch深度学习与企业级项目实战-预训练语言模型GPT
尽管神经网络模型在自然语言处理任务中已取得较好的效果，但其相对于非神经网络模型的优势并没有像在计算机视觉领域那么明显。该现象的主要原因可归结于当前自然语言处理任务的数据集相对较小（除机器翻译任务外）。
阅读更多2024-11-15