残差块的depth degradation effect

🕗 发布于 2024-09-23 21:22 学习 深度学习 机器学习

**残差块（Residual Block）的深度退化效应（Depth Degradation Effect）**是指在深度神经网络中，随着网络深度增加，模型性能不一定提高，反而可能出现退化或变差的现象。残差块（ResNet的核心模块）是为了解决这一问题而提出的，具体来看：

1. 深度退化问题

当深度神经网络的层数增加时，理论上网络的表示能力应该增强，从而带来更好的性能。然而，实践中发现，随着网络深度的增加，模型不仅没有表现出更好的性能，反而会出现训练困难、梯度消失或爆炸的问题。
此外，即使梯度传播正常，深层网络的训练误差和测试误差也可能会增大，这就是所谓的深度退化效应。这意味着模型难以通过增加层数来进一步提高性能。

2. 残差网络（ResNet）的提出

为了应对深度退化问题，He et al.（2015）提出了残差网络（ResNet），其核心是残差块。残差块通过引入跳跃连接（skip connection），直接将输入数据绕过中间层，连接到输出。这种结构设计允许信息沿着捷径传播，从而缓解了深层网络中的梯度消失问题，并使深度网络的训练更加稳定。

3. 残差块的工作原理

残差块可以表示为：
[
y = F(x) + x
]
其中，( F(x) ) 是一个学习的非线性变换（例如通过多个卷积层），而 ( x ) 是输入数据，通过跳跃连接直接加到输出上。

无残差的网络：如果我们简单地堆叠卷积层或全连接层，网络深度增加后可能会难以学习有效的特征，导致模型性能退化。
有残差块的网络：残差块允许网络学习到一个残差函数 ( F(x) = H(x) - x )，其中 ( H(x) ) 是希望学习的原始映射。如果残差为零，那么残差块会学习一个恒等映射，从而避免模型性能下降。

4. 解决深度退化效应

残差块通过以下方式解决深度退化问题：

梯度更容易传播：由于跳跃连接的存在，即使中间层对梯度的阻碍较大，梯度仍可以通过捷径传播到前面层，减轻梯度消失问题，从而使得更深的网络也可以正常训练。
恒等映射的学习：如果中间的卷积层学习效果不好，残差块至少可以学习恒等映射，这保证了网络的性能不会比浅层网络差。因此，随着网络加深，模型不会出现显著的性能退化。
深度对性能的正向影响：由于残差块的设计，理论上模型可以无限制地加深，同时继续提升性能，因为每个残差块要么学习有效特征，要么退化为恒等映射。

5. 实验验证

在ResNet的原始论文中，作者通过实验验证了残差块在缓解深度退化问题上的有效性：

他们对比了20层、56层和110层的残差网络与普通的卷积网络。结果表明，普通的卷积网络随着层数的增加，误差反而上升，而残差网络可以稳定训练，且更深的网络带来了更低的误差。
在ImageNet等大型数据集上的实验也表明，ResNet可以训练更深层次的网络（例如152层或更深），并显著提高性能。

6. 总结

残差块的深度退化效应解决方案在于通过跳跃连接和恒等映射，缓解了深层网络中的梯度消失和性能退化问题。它确保随着网络深度的增加，模型能够稳定地学习更复杂的特征，而不会因为深度过大导致训练误差或测试误差增大。因此，残差网络成为了深度学习中训练非常深层神经网络的关键技术。

通过引入残差块，网络可以在大幅度增加深度的情况下，继续保持较好的训练效果和模型性能。

原文地址：https://blog.csdn.net/qq_45809323/article/details/142463340

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

Nginx反向代理简介，作用及配置；Nginx负载均衡简介，作用及配置；
Nginx反向代理简介，作用及配置；Nginx负载均衡简介，作用及配置；
阅读更多2024-09-25
如何设置网络黑名单禁止某些用户访问
设置网络黑名单以禁止某些用户访问你的网络资源通常涉及使用防火墙、路由器设置或服务器配置。以下是一些常见的方法：大多数防火墙（无论是硬件防火墙还是软件防火墙）都允许你创建黑名单来阻止特定IP地址或MAC
阅读更多2024-09-25
C++的哲学思想
C++的设计哲学：1. C++底层不应该基于任何其他语言 2.只为使用的东西付费 3.以低成本提供高级抽象
阅读更多2024-09-25
在 Visual Studio （VS2015）中搜索时使用正则表达式
在Visual Studio 2015（VS2015）中，使用搜索（通常是查找和替换功能）时，可以启用正则表达式模式来执行更复杂的文本匹配和替换操作。
阅读更多2024-09-25
JVM 的性能指标监测
JVM性能指标监测。
阅读更多2024-09-25
网站深色浅色切换案例-单页面，非全局。
【代码】网站深色浅色切换案例-单页面，非全局。
阅读更多2024-09-25
Leecode_SQL50_1280. Students and Examinations
注意一定要选择 a.subject_name！因为只有这个表是全的。若选择错了，有人的 subject_name 会是 null.用 CROSS JOIN 获取所有学生和科目的组合，不用有相同的列来
阅读更多2024-09-25
企微私域助手：重塑企业营销新生态的智能引擎
它不仅帮助企业高效管理私域流量，提升营销效率与转化率，更重要的是，通过深度链接用户，构建了长期稳定的用户关系，为企业的可持续发展奠定了坚实基础。3、内容营销与自动化营销：支持内容库管理，企业可预设营销
阅读更多2024-09-25
信息技术的快速发展与未来展望
近年来，信息技术（IT）的迅猛发展给全球经济、社会和个人生活带来了深刻的变革。无论是大数据、云计算，还是人工智能、物联网等技术，IT技术的进步正不断推动着各行各业的数字化转型。本文将探讨当前信息技术的
阅读更多2024-09-25
【C++进阶】2024年了set、map还搞不懂底层细节？
关联式容器也是用来存储数据的，与序列式容器不同的是，关联式容器里面存的是结构的键值对，在数据检索时比序列式容器效率更高。set：存储唯一键的集合multiset：存储可以有重复键的集合map：存储唯一
阅读更多2024-09-25