深度学习基础—残差网络ResNets

🕗 发布于 2024-10-07 01:06 深度学习 人工智能

1.残差网络结构

当网络训练的很深很深的时候，效果是否会很好？在这篇论文中，作者给出了答案：Deep Residual Learning for Image Recognitionhttps://www.cv-foundation.org/openaccess/content_cvpr_2016/papers/He_Deep_Residual_Learning_CVPR_2016_paper.pdf

实际证明，越深的网络效果可能没有规模小的网络好。这是由于网络训练的很深的时候，会出现梯度消失或梯度爆炸的情况，网络难以训练，从而产生退化问题。而残差网络可以解决这个问题，帮助训练层数较多的网络。

（1）残差块

对于网络的一层，原本的操作是先进行权重参数的线性组合，在进行激活函数的计算。而残差块直接将某一层的输出值转移到其后某层的激活函数计算前，即激活函数计算前将（上一层的输出+转移的值）一起作为输入。

我们来推导一下计算公式，还以上图为例，假设当前的输入x为a[l]，则经过l+1层的线性组合后变成：

经过l+1层的Relu激活函数后变为：

经过l+2层的线性组合后变为：

此时，激活函数计算前应该加上a[l]，经过l+2层的线性组合后变为：

这就是一个残差块，由残差块组成的网络就是残差网络。残差又称为跳跃连接。

注意：这只是在普通网络实现残差块，在文章开头的链接中，是在卷积神经网络中实现残差神经网络的，如下：

最右侧的网络就是残差网络的作者实现34层残差网络，每两层卷积层作为一个残差层（池化层不含参数，不计入层数）。

（2）残差块的意义

将上述推导的公式展开：

当进行L2正则化或者权重衰减，参数的值会被压缩，W[l+2]和b[l+2]的值就可能接近0。假设W[l+2]和b[l+2]的值为0，此时进行Relu激活函数后a[l+2]=a[l]。也就是恒等式，经验表明网络学习一个恒等式很容易，说明增加残差块对网络的表现几乎没有影响。

但是，我们的目的是让网络有更好的表现，如果残差块的神经元学习到一些有用的信息，就会为网络带来更好的表现。因此残差块的意义就是：保证网络表现不会更低的情况下，寻找更优的网络结构。

2.注意事项

可能有人会注意到，a[l]直接转移到某一层激活函数前，万一维度不一致无法计算怎么办？

实际上残差网络使用了许多same卷积，因此可以保证残差块计算的维度一致。但如果出现了维度不一致，可以进行如下操作：

在a[l]前进行一次矩阵运算，保证Wsa[l]的输出维度和要运算的上一层输出维度一致，比如z[l+2]是256大小的向量，而a[l]的大小是128，就可以把Ws的大小固定为256*128，此时维度就保证了一致，然后把Ws作为参数进行学习。

也可以扩充a[l]的大小，进行padding操作，用0填充。

原文地址：https://blog.csdn.net/sniper_fandc/article/details/142695318

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

GNU/Linux - tarball文件介绍介绍
这需要使用额外的压缩算法，如 `gzip`、`bzip2` 或 `xz`，它们通常与 `tar` 结合使用。总之，压缩包是使用 “tar ”命令创建的文件，通常使用 “gzip ”或 “bzip2 ”
阅读更多2024-10-07
自动驾驶系列—自动驾驶背后的数据通道：通信总线技术详解与应用场景分析
随着自动驾驶技术的迅猛发展，车内各个电子系统之间的通信需求变得越来越复杂和高效。而在这些电子系统中，通信总线扮演了重要的角色，连接了车内的控制单元、传感器和执行器，为数据的高速、实时传输提供了可靠的基
阅读更多2024-10-07
Session反序列化漏洞解析
当某个用户第一次访问网站时，Session_start()函数会创建一个唯一的SessionID，并通过HTTP响应头，也就是返回包，将SessionID保存在客户端，也就是用户浏览器的Cookie中
阅读更多2024-10-07
004集—— txt格式坐标写入cad（CAD—C#二次开发入门）
其中有个封装函数addl，为封装事务写入实体到数据库的函。
阅读更多2024-10-07
HDLBits中文版，标准参考答案 | 3.1.2 Multiplexers | 多路复用器
HDLBits中文版，标准参考答案 | 3.1.2 Multiplexers | 多路复用器
阅读更多2024-10-07
ospfv3 笔记和一个 ospfv3 的 hub-spoke 实验
OSPFv3：Open Shortest Path First version 3，是一种专为IPv6网络设计的链路状态路由协议使用 ff02::5 ff02::6 做为组播地址，特征：1、使用Li
阅读更多2024-10-07
ThinkPHP5基础入门
ThinkPHP5 提供了一个简洁、高效的开发体验，通过 MVC 设计模式，使得代码结构清晰，易于维护。通过本文的介绍，相信初学者可以快速上手 ThinkPHP5，开始自己的 PHP 开发之旅。版权声
阅读更多2024-10-07
基于HX711的高精度压力传感器系统的STM32控制器设计 2000字，加代码，加题目
HX711模块通过差分输入接收来自压力传感器的模拟信号，并通过内部的可编程放大器进行放大，最后由24位A/D转换器转换为数字信号输出。STM32通过指定时序读取这些数据，实现对压力的精确测量。通过上述
阅读更多2024-10-07
Linux：进程的创建、终止和等待
进程最重要的三个核心：进程创建、进程等待、进程终止。所以我们在需要多进程的时候，我们的代码核心首先要考虑以下要素：（1）需要有循环fork创建子进程（2）需要在合适的时候让子进程退出（常用exit）
阅读更多2024-10-07
汇编入门基础
push,pop是一种内存传送指令,可以在寄存器和内存之间传送数据,与mov指令不同之处在于,push和pop指令访问的内存单元的地址不是在指令中给出,而是由SS:SP指出。执行push和pop指令时
阅读更多2024-10-07

深度学习基础—残差网络ResNets

1.残差网络结构

（1）残差块

（2）残差块的意义

2.注意事项

相关文章