神经网络归一化方法总结

🕗 发布于 2024-11-26 11:00 深度学习 神经网络 BN LN IN

在深度学习中，归一化 是提高训练效率和稳定性的关键技术。以下是几种常见的神经网络归一化方法的总结，包括其核心思想、适用场景及优缺点。

四种归一化

特性	Batch Normalization	Group Normalization	Layer Normalization	Instance Normalization
计算维度	批次内的所有通道	单样本分组内通道	单样本所有通道	单样本每通道
依赖批量大小	是	否	否	否
应用场景	大批量训练	小批量或单样本训练	NLP 等序列任务	风格迁移等图像任务

1. Batch Normalization (BN)

核心思想：

在每个批次内，对每一层的激活值按通道计算均值和标准差，将其归一化到零均值和单位方差，并通过可学习的参数恢复模型表达能力。

公式：

优点：

提高收敛速度，减少训练难度。
具有一定的正则化效果，缓解过拟合。

缺点：

对小批量训练效果较差，因为批内统计量不稳定。
对时间序列或变长输入不友好。

适用场景：

大批量训练任务（如图像分类、目标检测）。

2. Layer Normalization (LN)

核心思想：

对每一个样本的所有通道（整个特征图）进行归一化。

公式：

优点：

不依赖批量大小，小批量训练和序列任务中表现良好。
适用于变长输入。

缺点：

在图像任务中不如 BN 效果好。

适用场景：

自然语言处理（如 Transformer）。
小批量或单样本任务。

3. Instance Normalization (IN)

核心思想：

对每个样本的每个通道独立进行归一化，仅计算空间维度的均值和标准差。

公式：

优点：

消除样本间的风格差异。
在图像风格迁移中表现优异。

缺点：

对模型的分布学习能力有一定限制。

适用场景：

图像风格迁移等需要处理单张图像的任务。

4. Group Normalization (GN)

核心思想：

将通道分为多个组，每组内部计算均值和标准差进行归一化。

公式：

优点：

不依赖批量大小，适合小批量或单样本训练。
在小数据集任务中表现良好。

缺点：

对大批量训练效率稍逊于 BN。

适用场景：

小批量训练任务（如目标检测、医疗图像）。

5. Weight Normalization (WN)

核心思想：

对每一层的权重进行归一化，分离权重的方向和尺度，以提升优化效率。

公式：

优点：

不引入额外的运行时计算。
可加速收敛。

缺点：

无法处理激活值的归一化。

适用场景：

提升优化效率的任务。

6. Layer-wise Adaptive Normalization (AdaLN)

核心思想：

自适应调整归一化过程，结合 IN 和 LN 的优点。

优点：

同时适应样本内和样本间的统计特性。
在生成式任务中效果良好。

缺点：

计算复杂度较高。

适用场景：

GANs 和生成式模型。

归一化方法对比

方法	计算维度	依赖批量大小	优点	缺点	应用场景
BN	批内的每个通道	是	加速收敛，正则化	小批量性能下降	大批量图像任务
LN	样本内所有通道	否	小批量效果良好	图像任务效果略差	NLP、序列任务
IN	样本内每个通道	否	风格迁移效果好	分布学习能力有限	图像风格迁移
GN	样本内分组的通道	否	适合小批量，小数据集	复杂度高于 BN	小批量检测和分类任务
WN	权重	否	提升优化效率	不对激活值归一化	提高收敛速度的优化任务
AdaLN	样本内和样本间	否	自适应效果强	计算复杂	生成式任务

归一化方法的选择应根据任务需求、批量大小和计算资源等因素综合考虑。在大批量训练任务中，BN 仍然是主流方法；而在小批量或特殊任务中，如 NLP 和生成式模型，则可以选择更适合的归一化方法（如 GN 或 LN）。

原文地址：https://blog.csdn.net/qq_67654130/article/details/144021000

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：MySQL底层概述—2.InnoDB磁盘结构
下一篇：掌握 Vue key：剖析其原理及与无 key 的区别

专题二十三_动态规划_回文串系列问题_算法专题详细总结
由上面给出的求解回文串的三种方法中，动态规划思想是一种极为重要的思路，通过这题就可以看出动态规划思路很清晰明了，可以很简单的就将hard转换为easy2.最⻓回⽂⼦串（medium）返回最长的一个回文
阅读更多2024-11-26
# [Unity] 【游戏开发】Unity开发基础2-Unity脚本编程基础详解
方法可以封装特定功能。脚本结构：包括using指令、类声明、Start和Update方法。变量：布尔型、整型、浮点型、字符串和游戏对象。逻辑控制ifelse条件语句，while和for循环。方法：封装
阅读更多2024-11-26
cocos creator 3.8 打飞机Demo 9
1>在GameCtrl 的onLoad中让它赋值this，window[“GameCtrl”] = this，然后在其他的脚本中调用它下面的方法。2>找到这里节点上挂载的这个脚本，用一个方
阅读更多2024-11-26
设计模式之代理模式(模拟mybatis-spring中定义DAO接口，使用代理类方式操作数据库原理实现场景)
但在高体量、高并发的业务场景下，每一次的压测优化，性能提升，都像在研究一道数学题一样，反复的锤炼，压榨性能。不断的深究，找到最合适的设计。这样的案例场景在实际的业务开发中其实不多，因为这是将这种思想运
阅读更多2024-11-26
Paddle Inference部署推理（十四）
Paddle Inference推理（python）API详解：Tensor 类
阅读更多2024-11-26
基于微信小程序的空巢老人健康管理系统
空巢老人可以通过小程序记录自己的健康数据，包括体重、血压、血糖等信息，并通过系统生成健康报告，实时监测自己的健康状况。第一次使用本小程序的使用者，首先是要进行注册，点击“注册”，然后就会进入到注册的页
阅读更多2024-11-26
php 导出excel 一个单元格多张图片
name。
阅读更多2024-11-26
C++ 中的类型别名和 using 声明
当你在代码中写vector时，编译器可能会混淆你到底是想使用自己定义的vector还是std中的std::vector，从而导致编译错误或者运行时的逻辑错误。下面是定义一个模板类型别名来表示std::
阅读更多2024-11-26
当卷积遇上积分——无损动态压缩
本文介绍了INN方法及原理，分析了其问题与发展，给出了改进的INN代码版本
阅读更多2024-11-26
c++趣味编程&玩转物联网：树莓派Pico控制 LED点阵屏
8×8 LED点阵屏是一种常见的数字显示设备，被广泛应用于电子时钟、公交车显示屏和游戏设备中。在本项目中，我们使用树莓派Pico开发板，通过I2C协议驱动HT16K33芯片，实现点阵屏显示心形图案、倒
阅读更多2024-11-26

神经网络归一化方法总结

四种归一化

1. Batch Normalization (BN)

2. Layer Normalization (LN)

3. Instance Normalization (IN)

4. Group Normalization (GN)

5. Weight Normalization (WN)

6. Layer-wise Adaptive Normalization (AdaLN)

归一化方法对比

相关文章