论文阅读-U3M(2)

🕗 发布于 2024-10-17 07:00 论文阅读

HOW MUCH POSITION INFORMATION DO CONVOLUTIONAL NEURAL NETWORKS ENCODE?

文章目录

HOW MUCH POSITION INFORMATION DO CONVOLUTIONAL NEURAL NETWORKS ENCODE?

在阅读Segformer论文中，设计一个高效、有用、轻量的分割模型，其中对编码器的设计中对位置嵌入做了改进，使用一个卷积来完成位置编码。这个思想就是借鉴了“HOW MUCH POSITION INFORMATION DO CONVOLUTIONAL NEURAL NETWORKS ENCODE?”这篇文章。中文名翻译过来就是多少位置编码信息被卷积神经网络学习？
在这里插入图片描述

前言

在使用基于CNN的模型学习数据特征时，由于CNN是使用卷积在输入图像局部的滑动卷积提取特征，所以想当然的认为基于CNN的方法很难感知到图像的绝对位置信息。但是作者发现了一个有趣的现象，我们通常认为图像的显著性区域集中在图像中心，在对图像进行裁剪后（显著性区域内容不会变化，但是位置会发生变化），模型仍然可以感知到显著性区域。因此作者提出一个假设：卷积神经网络能够隐式地将图像的绝对位置编码进特征图中。作者通过一系列随机化测试来验证该假设。

一、位置编码网络（PosENet）

前馈网络编码器：编码器由5个特征提取器组成 $f_{\theta}^1,f_{\theta}^2,f_{\theta}^3,f_{\theta}^4,f_{\theta}^5$ ，网络从浅层到深层提取不同层次的特征 $f_{pos}^1,f_{pos}^2,f_{pos}^3,f_{pos}^4,f_{pos}^5$ 。编码器部分的计算过程被表示如下：
$f_{pos}^i=f_\theta^i(W_\alpha * I_m)$
其中 $W_\alpha$ 表示冻结的权重。 $*$ 表示卷积操作。前馈网络编码器只用于提取特征提取，其权重是由预训练是预训练得到的。
位置编码器：位置编码器的输入是经过前馈网络得到的多尺度特征 $f_{pos}^1,f_{pos}^2,f_{pos}^3,f_{pos}^4,f_{pos}^5$ 。然后应用双线性插值拉起多尺度特征图的空间维度，然后对它们做concat操作,得到特征图 $f_{pos}^c$ , 然后对 $f_{pos}^c$ 做卷积操作和变换方程 $\mathcal{T}_{pos}$ 将特征图为位置图。具体的操作如下：
$f_{pos}^c=(f_{pos}^1\oplus...\oplus f_{pos}^5) \ \ \ \ \ \ \ \ \ \ \hat{f}_p={W_{pos}^c*f_{pos}^c}$
其中 $W_{pos}^c$ 是与变换函数 $\mathcal{T}_{pos}$ 相连的可训练权重。

编码模块添加主要目的是用于验证前馈网络编码器是否隐式地学习了位置信息。如果没有在特征图中编码位置信息，那么PosENet的输出应该是随机的。

在这里插入图片描述

二、训练数据

为了验证卷积神经网络中是否学习到位置信息，我们分配一个归一化类似梯度的位置图作为Ground Truth来进行随机化测试。在实施过程中，选择了五种类似梯度的掩码：水平方向（H）、垂直方向（V）、高斯方向（G）、水平条纹（HS）以及垂直条纹（VS）。
从图中可以看到Ground Truth 和图像内容无关，所以每一张位置GT可以对应任意的图像。作者采用了多种位置编码去验证卷积神经网络对位置编码的学习情况。如果特征图中没有特征编码信息，那么输出则很难匹配GT，相反，如果特征图中隐式地编码了位置信息，那么，就可以匹配到GT。
在这里插入图片描述

三、实验

在实验结果中，VGG表示PosENet基于VGG16模型中提取特征。ResNet表示PosENet基于ResNet模型提取特征，而PosENet则表示仅应用PosENet模型直接从输入图像中学习位置信息。为了证明卷积神经网络可以隐式的编码绝对位置这个假设，作者做了4组实验：位置信息的存在性（对比有无前馈编码器提取特征）、分析PosENet（分析PosENet中卷积的大小和卷积层的层数对读取绝对位置的能力）、位置信息存储位置（主要是通过分析前馈神经不同层中对位置编码的能力）、位置信息来自哪里（对比有无zero-padding）。

3.1 位置信息的存在性

在这部分，在5种GT图像上训练带有前馈编码VGG和ResNet的PosNet网络以及仅仅应用PosENet网络（用于验证位置信息是不是从对物体的内容感知中获取的，此外在本部分的实验中PosENet仅使用了3x3的单个卷积层，并且未使用zero-padding），对应的定量的结果如Table1所示。从Table1中可以看到在5种GT实验中，使用前馈编码器的PosENent模型，不使用前馈编码器的PosENet的得分普遍较低。这个结果说明，仅仅从输入图像中提取位置信息是非常困难的。PosENet仅仅从输入图像中提取位置信息是非常困难的，只有在与深度编码网络结合时，才能提取与真实位置图一致的定位信息。通过不同模式下的测试，可以较好证明了模型并非盲目的过度拟合噪声，而是正在提取真实的定位信息。
在这里插入图片描述

3.2 分析PosENet

在这部分，作者设计了两个消融实验来检验编码网络的作用。（1）卷积层的堆叠长度的作用（a图）（2）卷积核大小的作用（b图）。
从（a）图中的结果中可以看到，增加更多的层能够使模型获得更高的得分，其中一个原因时堆叠多个卷积层可以使网络具有更大的感受野，另一个可能是位置信息的转换可能需要高于一阶推理的方式表示。
从（b）图中可以看到，较大的卷积核可能更有利于捕获更多的位置信息，这意味着位置信息可能在层内和特征空间中分布的更加广泛，进而更大感受野可以更好的解析位置信息。
在这里插入图片描述

3.3 位置信息存储在哪里？

前面的实验揭示了位置信息被编码在一个预训练的CNN模型中，那么那一层回编码更多的信息呢？
作者使用基于VGG-16作为前馈编码器的模型为例用于检验在 $f_{pos}^1,f_{pos}^2,f_{pos}^3,f_{pos}^4,f_{pos}^5$ 中哪一层中编码了更多的信息。
从表3中可以看到来自深层的 $f_{pos}^5$ 特征相比浅层的 $f_{pos}^1$ 特征得到了更好的表现。因此这表明网络越深层处的编码器对位置信息的编码能力更强。同样这也和深层视觉特征看的特征更偏向全局的观点相吻合。
在这里插入图片描述

3.4 位置信息来自哪里？

作者在实验中证明了CNN能够学习到位置编码主要归因于zero-padding过程。是的，是源自如此基础性的内容。作者是通过对比在编码器中使用Zero-padding和不使用Zero-padding来验证这一点。
实验结果如表4和图6所示，可以看的，在没有zero-padding的实验中。模型的性能表现最差，远低于默认设置（zero-padding）的情况。当设置更多的zero-padding时，位置信息的作用也变得更加明显。
在这里插入图片描述

四、结论

在本篇文章中，探讨了绝对位置信息是否被隐式地编码在卷积神经网络中的假设。通过对比是否使用前馈编码器输出的特征的实验证明了卷积神经网络确实能够隐式地学习到图像的绝对位置信息。通过分析卷积核的大小和卷积层的层数证明了，更大的感受野和非线性读取位置信息进一步增强了单层3x3PosENet对位置的读取能力。通过分析前馈编码器不同层的位置编码能力得出更深的特征提取层具有更好的位置编码能力。通过对比编码器中是否设置zero-padding操作，验证了卷积神经网络对图像的位置编码能力主要来源于zero-padding。

原文地址：https://blog.csdn.net/luralying/article/details/142957729

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：缓存穿透/击穿/雪崩（附生产BUG）
下一篇：【优先算法】--双指针1

TikTok直播专线带宽怎么选？TikTok专线带宽选购指南
TikTok直播在当下越来越受欢迎。TikTok直播对网络的要求还是比较高的，为了确保直播质量，选择适当的TikTok直播专线带宽至关重要。下面我们来看看如何根据不同的直播需求选择合适的直播专线带宽。
阅读更多2024-10-17
海思hi3536c配置内核支持USB摄像头
内核更新后，系统启动，插上摄像头，在dev下面就可以看到video0设备了。选择Multimedia support，并进入。选择Media USB Adapters，并进入。内核版本：linux-3
阅读更多2024-10-17
FFMPEG录屏（17）--- 使用 DwmRegisterThumbnail 捕获指定窗口图像数据
通过 [] API，我们可以高效地捕获指定窗口的图像数据。本文介绍了如何检查 DWM 支持、注册缩略图、更新缩略图属性以及捕获窗口图像数据的完整过程。希望这篇文章对您有所帮助。
阅读更多2024-10-17
IJKPlayer源码分析-整体结构
功能：完成IJK播放环境的初始化，创建IjkMediaPlayer本地结构对象，然后初始化平台相关的解码器和音视频的处理例程，同时，把IjkMediaPlayer保存到JAVA端对应类的_mNativ
阅读更多2024-10-17
sqoop导入sql数据权限不够
报错信息："Host 'master' is not allowed to connect to this MySQL server"
阅读更多2024-10-17
C++-list模拟实现
##模拟实现list需要先看源码，了解基本的结构和设计思路###list底层是双向链表，每一个节点包含数据域和两个指针（一个指向后一个节点，一个指向前一个节点），并且list带有一个哨兵位；###链表
阅读更多2024-10-17
《使用Gin框架构建分布式应用》阅读笔记：p52-p76
书上使用ioutil包读取JSON文件，但是从go 1.16 开始，不再推荐使用ioutil，应该使用os 包。无，第二章除了食物名，整体来说生词比较少。
阅读更多2024-10-17
发票闪印 v3.1.10 免费电子PDF发票批量打印工具绿色版
发票闪印（电子发票打印工具）是一款免费的PDF发票打印辅助软件由远景论坛会员 by li495388759 开发制作，因为单位有很多电子发票需要打印，每次打印都要用reader阅读器打开，选打印，选份
阅读更多2024-10-17
【OpenCV】（八）—— 腐蚀和膨胀
本文介绍opencv中的腐蚀和膨胀，包括其衍生操作开运算闭运算和黑帽礼帽
阅读更多2024-10-17
PostgreSQL Windows系统初始化、登录、创建用户及数据库
完成以上步骤后，你就可以使用新创建的用户登录到。服务器，并且可以在新创建的数据库中进行操作。安装完，可以去服务里面查看，并启动该服务；服务名可自定义，此处服务名为。参数指定了要登录的用户名，这条命令将
阅读更多2024-10-17