自学内容网 自学内容网

【网络层结构】一篇弄懂池化层Pooling操作

🌈 个人主页:十二月的猫-CSDN博客
🔥 系列专栏: 🏀深度学习_十二月的猫的博客-CSDN博客

💪🏻 十二月的寒冬阻挡不了春天的脚步,十二点的黑夜遮蔽不住黎明的曙光

目录

1. 前言

2. 各类池化层介绍

2.1 最大/平均池化

2.2 全局池化​编辑

2.3 随机池化​编辑

2.4 Soft Pool

2.5 Local Importance-based Pooling

2.6 S3 Pool

一步池化

两步池化

2.7 图池化​编辑

2.8 ROI Pooling​编辑

3. 总结


1. 前言

池化Pooling是卷积神经网络中常见的一种操作,其本质是降维。在卷积层之后,通过池化来降低卷积层输出的特征维度,减少网络参数和计算成本的同时,降低过拟合现象。

Pooling层是模仿人的视觉系统对数据进行降维,人眼在观察复杂场景时,通常会通过关注最显著的特征来处理视觉信息,而Pooling层的功能也正是抽取图像中最重要的信息并进行有效降维。

2. 各类池化层介绍

池化的本质是降维,池化的原则是提取最重要的信息。基于如何提取最重要的信息有许多不同的观点,因此就产生了许多不同池化层。

2.1 最大/平均池化

最大池化(Max Pooling)是将输入的图像划分为若干个矩形区域,对每个子区域输出最大值。即,取局部接受域中值最大的点。同理,平均池化(Average Pooling)为取局部接受域中值的平均值。

最大池化的池化依据:保留特征图中最显著的特征(选用最大值作为特征值,最大值就是最显著特征)
平均池化的池化依据:保留更多的背景信息,而不是单纯关注显著特征,同时更平滑地表达特征图中的信息

2.2 全局池化

Global Pooling就是Pooling的滑窗size和整个Feature Map的size一样大。在滑窗内的具体pooling方法可以是任意的,所以就会被细分为Global Average Pooling,Global Max Pooling等。

全局池化强调的是:池化生效的范围
平均/最大池化强调的是:池化生效的方法

2.3 随机池化

Stochastic pooling是论文《Stochastic Pooling for Regularization of Deep Convolutional Neural Networks》中提到的一种池化策略,大意是只需对特征区域元素按照其概率值大小随机选择,元素值大的被选中的概率也大。

随机池化分为两种:(1)完全随机池化;(2)概率随机池化

本人认为概率随机池化更合理,理由如下:
        1、人眼虽然侧重提取重点信息,但是对于背景信息也存在一定概率(较小概率)提取
        2、随机提取可以使得特征值较最大提取更平稳

2.4 Soft Pool

SoftPool是一种变种的Pooling,它可以在保持池化层功能的同时尽可能减少池化过程中带来的信息损失。上图展示了SoftPool操作的Forward阶段与Backward阶段,6*6大小的区域表示的是激活映射。

SoftPool的池化依据:即考虑重点信息,又考虑背景信息

特点:

  1. 根据特征图中各个元素的重要性,使用软性的方法来进行池化。
  2. 采用训练学习的方法,让池化的细节和具体下游任务挂钩。由下游任务去决定池化的参数,提升灵活性。
  3. 与传统的池化方法相比,Soft Pooling 在特征表达上更加平滑。通过加权平均,Soft Pooling 能够有效减少特征图中因最大值或平均值计算引入的噪声,从而提供更稳定的特征表示。

2.5 Local Importance-based Pooling

 

Local Importance-based Pooling提出通过一个基于输入特征的子网络自动学习重要性。它能够自适应地确定哪些特征更重要,同时在采样过程中自动增强识别特征。具体思路是,在原feature map上学习一个类似于attention的map,然后和原图进行加权求平均。需要说明的是,这里采样的间隔其实还是固定的,不符合上述描述的第一条,但是作者认为,由于importance是可变,从而实现变形的感受野

LIP和SoftPooling的比较:

  1. 相似性

    • 信息保留:两者都旨在减少传统池化方法导致的信息损失,保留更多特征信息。
    • 加权机制:LIP 和 Soft Pooling 都通过加权的方式来聚合特征,但它们的权重来源和计算方式不同。
  2. 区别:
    • 加权机制:LIP采用重要性评分来作为权重依据。例如注意力机制、梯度加权。Soft Pooling采用SoftMax函数作为学习结果的最后输出。
    • 侧重点:LIP 更加敏感于重要区域的特征,能够更好地保留那些对决策影响较大的特征。Soft Pooling 提供了一种模糊处理的方式,使得对特征的处理更加平滑,不易受到单一特征值的影响

2.6 S3 Pool

S3Pool提出一种随机位置池化策略,集成了随机池化Stochastic Pooling与最大值池化Max Pooling。

具体步骤如下:

 本文将常规池化看作两个步骤:
1)以步长为1在特征图上滑动池化窗口,尺寸大小基本保持不变
2)以一种 uniform 和 deterministic 的方式进行降采样

一步池化

定义:将池化视为一个单独的步骤,意味着在一次操作中完成所有计算。

特点

  1. 计算简单:一次性对输入特征图的每个局部区域进行池化操作,通常是最大池化或平均池化。
  2. 效率:直接应用于特征图,简化了计算流程,通常用于模型推理时。

优点

  • 提高计算效率。
  • 减少参数数量。
  • 控制过拟合,因降低了特征图的维度。

两步池化

定义:将池化视为两个步骤,通常指的是先进行卷积操作,之后再进行池化操作。

特点

  1. 分步处理:第一步是通过卷积层提取特征,第二步是对提取的特征进行下采样。
  2. 特征层次性:允许网络逐步提取特征,第一步提取局部特征,第二步则可以减少特征的空间维度。
  3. 可能的操作顺序:卷积操作和池化操作可以交替进行,在卷积后直接进行池化,形成更深层的网络结构。

优点

  • 提高特征的抽象程度,因为卷积层能提取更复杂的特征。
  • 池化能减少计算量,使得后续层的计算更高效。

 

2.7 图池化

图池化是基于条件随机场的,它是将图池化视为一个节点聚类问题,并使用CRF在不同节点的分配之间建立关系。并通过结合图拓扑信息来推广这个方法,使得图池化可以控制CRF中的成对团集。

2.8 ROI Pooling

Region of Interest Pooling是在目标检测任务中广泛使用的操作。它对于来自输入列表的每个感兴趣区域,它采用与其对应的输入特征图的一部分并将其缩放到某个预定义的大小。这可以显着加快训练和测试时间,它允许重新使用卷积网络中的特征映射,同时也允许以端到端的方式训练物体检测系统。

3. 总结

参考链接:
https://arxiv.org/pdf/1611.05138.pdf
https://arxiv.org/pdf/1301.3557.pdf
https://arxiv.org/pdf/2101.00440.pdf
https://arxiv.org/pdf/1908.04156.pdf
https://openreview.net/pdf?id=BJxg_hVtwH
https://deepsense.ai/region-of-interest-pooling-explained/
https://arxiv.org/abs/2009.07485
https://www.jianshu.com/p/c3ba4ca849d3
https://blog.csdn.net/jiachen0212/article/details/78548667
https://www.cnblogs.com/ying-chease/p/8658351.html
https://www.sohu.com/a/160924449_651893
https://www.cnblogs.com/guoyaohua/p/8674228.html
https://blog.csdn.net/dulingtingzi/article/details/79848625
https://blog.csdn.net/u010402786/article/details/51541465
https://blog.csdn.net/weixin_41513917/article/details/102514739
Overview of multi-scale orderless pooling for CNN activations (MOP-CNN). Our proposed feature is a concatenation of the feature vectors from three levels: (a)Level 1, corresponding to the 4096-dimensional CNN activation for the entire 256256image; (b) Level 2, formed by extracting activations from 128128 patches and VLADpooling them with a codebook of 100 centers; (c) Level 3, formed in the same way aslevel 2 but with 64*64 patches.

如果想要学习更多深度学习知识,大家可以点个关注并订阅,持续学习、天天进步

你的点赞就是我更新的动力,如果觉得对你有帮助,辛苦友友点个赞,收个藏呀~~~


原文地址:https://blog.csdn.net/m0_67656158/article/details/142768105

免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!