神经网络的初始化

🕗 发布于 2024-11-22 08:39 神经网络 人工智能 深度学习

为什么需要初始化？

初始化的常用方法：

是否必须初始化？

初始化神经网络中的权重和偏置是深度学习模型训练中非常重要的一步，虽然在某些情况下不进行初始化也能训练出模型，但正确的初始化方法能够显著提高训练效率并帮助模型更好地收敛。

为什么需要初始化？

防止梯度消失或爆炸：神经网络如果不进行适当的初始化，神经网络可能会遇到梯度消失或梯度爆炸的问题，导致训练无法有效进行；合理的初始化可以确保在反向传播过程中梯度的流动正常，避免这些问题。

加速收敛：使网络在训练的早期阶段就具备良好的起点，从而加速优化过程；没有初始化或者初始化不当可能导致模型训练非常缓慢，甚至收敛到不好的局部最优解。

确保非线性激活函数正常工作：在深度网络中，很多激活函数（如 ReLU、Sigmoid 等）依赖于输入的大小。如果权重初始化不当，激活函数可能会“饱和”或“死亡”，导致学习过程受阻。

初始化的常用方法：

Kaiming (He) 初始化：适用于 ReLU 等非线性激活函数，能够避免梯度消失问题。它通过计算输出层的大小来调整权重的标准差，使得每一层的输出方差稳定。

卷积层权重的 Kaiming 初始化代码展示：

import torch
import torch.nn as nn
import torch.nn.init as init

# 创建一个卷积层
# fan_out：适用于输出激活值的方差一致。
conv_layer = nn.Conv2d(in_channels=3, out_channels=64, kernel_size=3)

init.kaiming_normal_(conv_layer.weight, mode='fan_out', nonlinearity='relu')

# 如果卷积层包含偏置（通常建议设置为 False），可以将其初始化为零
if conv_layer.bias is not None:
    init.constant_(conv_layer.bias, 0)

全连接层权重的 Kaiming 初始化

# 创建一个全连接层
fc_layer = nn.Linear(in_features=128, out_features=64)

# 使用 Kaiming 均匀分布初始化权重
# fan_in：适用于输入激活值的方差一致（默认值）
init.kaiming_uniform_(fc_layer.weight, mode='fan_in', nonlinearity='relu')

# 偏置初始化为零
if fc_layer.bias is not None:
    init.constant_(fc_layer.bias, 0)

Xavier (Glorot) 初始化：适用于 Sigmoid 或 Tanh 激活函数，旨在保持每一层输入和输出的方差一致，减少梯度消失问题。

正态分布初始化代码展示：

import torch
import torch.nn as nn
import torch.nn.init as init

# 创建一个全连接层
fc_layer = nn.Linear(in_features=128, out_features=64)

# 使用 Xavier 正态分布初始化权重
init.xavier_normal_(fc_layer.weight)

# 均匀分布初始化
init.xavier_uniform_(fc_layer.weight)

# 如果层包含偏置，可以将偏置初始化为零
if fc_layer.bias is not None:
    init.constant_(fc_layer.bias, 0)

是否必须初始化？

不进行初始化的情况：PyTorch 默认会为大多数层（如 nn.Conv2d, nn.Linear 等）进行随机初始化，但这些默认初始化并不一定是最优的，尤其是当网络较深时。没有显式初始化时，训练仍然可以开始，但可能会遇到效率低、收敛慢等问题。

初始化的影响：通过手动指定初始化方法（如 Kaiming 初始化），可以确保网络的训练从合理的起点开始，避免一些常见的训练问题（如梯度消失、爆炸等）。

原文地址：https://blog.csdn.net/qq_40671063/article/details/143953018

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：阿里巴巴官方「SpringCloudAlibaba全彩学习手册」限时开源！
下一篇：《Hello YOLOv8从入门到精通》3，目标检测数据集和标注规范

学习threejs，使用设置bumpMap凹凸贴图创建褶皱,实现贴图厚度效果
本文详细介绍如何基于threejs在三维场景中使用设置bumpMap凹凸贴图创建褶皱,实现贴图厚度效果，亲测可用。希望能帮助到您。一起学习，加油！加油！
阅读更多2024-11-23
springboot课程答疑系统(代码+数据库+LW)
摘要随着信息互联网信息的飞速发展，无纸化作业变成了一种趋势，针对这个问题开发一个专门适应师生交流形式的网站。本文介绍了课程答疑系统的开发全过程。通过分析企业对于课程答疑系统的需求，创建了一个计算机管理
阅读更多2024-11-23
云服务器部署springboot项目、云服务器配置JDK、Tomcat
（这个server.xml里面有tomcat的配置可以在这里修改，这里可以把tomcat端口改成80，就这里 tomcat默认端口8080 改成80 和http默认端口一样访问就不用输入端口号了。
阅读更多2024-11-23
如何在Linux上安装Canal同步工具
所用到的安装包链接：https://pan.baidu.com/s/1B1LxZUZsKVaHvoSx6VV3sA提取码：v7ta链接：https://pan.baidu.com/s/13RSqPin
阅读更多2024-11-23
MySQL 三大日志详解
Binlog 是 MySQL 数据库的二进制日志，它记录了数据库的所有变更操作，包括数据的插入、更新、删除等。
阅读更多2024-11-23
Redis五大基本类型——Zset有序集合命令详解（命令用法详解+思维导图详解）
有序集合保留了集合不能有重复成员的特点。但和集合不同的是，有序集合中的每一个元素都有一个唯一的浮点类型的分数（score）与之关联，这使得有序集合中的元素是可以维持有序性的。有序集合中的有序并不是用下
阅读更多2024-11-23
【读书】复杂性意义结构框架——Cynefin框架
Cynefin框架是戴维·斯诺登（David Snowden）20世纪90年代的在IBM时创建的，在其后，他继续发展它。斯诺登将框架描述为一种“意义结构框架”（sense-making framewo
阅读更多2024-11-23
洛谷 P1049 [NOIP2001 普及组] 装箱问题 C语言记忆化搜索-＞‘倒序‘dp-＞‘正序‘dp
没有什么正序dp和倒序dp，本质就是状态定义和关系转移的不同。'倒序'dp，代码如下。记忆化搜索，代码如下。'正序'dp代码如下。
阅读更多2024-11-23
Android 设置 bottomnavigation 底部导航栏的样式
样式自定义：通过styles.xml文件自定义的外观，包括背景色、图标颜色、选中文本颜色等。显示方式：可以使用固定（显示所有菜单项）或滚动模式来显示的菜单项。与 ViewPager2 结合：通过来监听
阅读更多2024-11-23
Rust学习（八）：异常处理和宏编程：
异常处理是任何编程语言都会遇到的现象，Rust并没有像其他变成语言一样提供了try catch这样的异常处理方法，而是提供了一种独特的异常处理机制。这里需要指明的是作者在书中将Rust中的失败、错误、
阅读更多2024-11-23

神经网络的初始化

为什么需要初始化？

初始化的常用方法：

是否必须初始化？

相关文章