Transformer学习记录（5）：Batch Normalization与Layer Normalization

🕗 发布于 2024-09-20 14:19 transformer 学习 batch

简介

BatchNorm与Layer Norm都是用于标准化数据的，Batch Normalization是用于图像预处理的，而Layer Normalization最初是用于自然语音的，但随着Transformer在图像的使用，Layer Normalization也用于图像中。

我们在图像预处理过程中通常会对图像进行标准化处理，这样能够加速网络的收敛。

Batch Normalization

原理

数据在网络中传输时，数据的分布就可能不会满足某一种分布，如下图所示，对于Conv1来说输入的就是满足某一分布的特征矩阵，但对于Conv2而言输入的feature map就不一定满足某一分布规律了（这里所说的满足某一分布规律是指整个训练集所对应的feature map要满足某种分布）。
因此需要对输入到Conv2的数据进行标准化。Batch Normalization的目的就是使我们的feature map满足均值为0，方差为1的分布规律。
在这里插入图片描述
Batch Normalization是对训练集中的每个维度进行都进行标准化处理。
假设输入图像为RGB的三通道图像X，则将X分为 $x^{(1)},x^{(2)},x^{(3)}$ ，代表了RGB三个通道所对应的特征矩阵，标准化处理也就是分别对我们的R通道，G通道，B通道进行处理。

之前说过目的是让整个训练集的feature map都符合某个分布，但对于一个大型数据集来说，计算出所有feature map再进行标准化是不现实的，因此Batch Normalization中是对于一个Batch的数据的feature map进行标准化，batch 越大，效果越接近真实。

原文给出了计算公式，其中：

$\mu _B$ ：batch中每个维度的feature map的均值， $\mu_B$ 是一个向量，每个元素代表着一个维度的均值。
$\sigma^2_B$ ：“batch中每个维度的feature map的方差， $\sigma^2_B$ 是一个向量，每个元素代表着一个维度的方差。
$x_i$ ：batch中的输入数据

计算出每个维度均值与方差后，使用这些矩阵与方差来标准化对应维度的feature。
在这里插入图片描述
下图是一个实例，这里batch size=2，feature1、feature2分别是由image1、image2经过一系列卷积池化后得到的特征矩阵，feature的channel为2。
$x^{(1)}$ 代表着batch中所有图像的feature中channel1的数据， $x^{(2)}$ 同理。
然后分别计算 $x^{(1)}$ 与 $x^{(2)}$ 的均值与方差，得到向量 $\mu 与 \sigma$ 。最后使用这两个向量根据标准差公式对对应channel的feature进行标准化。
在这里插入图片描述

在pytorch中的使用

在这里插入图片描述

Layer Normalization

Layer Normalization与Batch Normalization的计算公式是一样，但与Batch Normalization不同的是BN是对一个batch数据的每个channel进行Norm处理，但LN是对单个数据的指定channel进行Norm处理，与batch无关。

原文地址：https://blog.csdn.net/Life1213/article/details/142251081

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：无消息传递的图变换器中的图归纳偏差
下一篇：泳池软管检测系统源码分享

Python介绍
Python以其简洁的语法、丰富的库支持和广泛的应用领域，成为了编程界的一颗璀璨明星。无论您是编程初学者还是资深开发者，Python都能为您带来全新的编程体验和无限可能。在这个充满挑战与机遇的时代，掌
阅读更多2024-09-22
Github 2024-09-22 php开源项目日报 Top10
根据Github Trendings的统计，今日(2024-09-22统计)共有10个项目上榜。
阅读更多2024-09-22
GC的算法
标记-清除（Mark-Sweep）通过标记存活对象并清除未标记对象来进行垃圾回收，适合处理较为复杂的对象引用关系。分代回收（Generational Collection）根据对象生命周期的不同，将堆
阅读更多2024-09-22
Redis的三种持久化方法详解
redis的三种持久化方法详解
阅读更多2024-09-22
微信小程序IOS真机调试-onPullDownRefresh和onReachBottom不生效
微信小程序真机调试，下拉刷新和加载更多不生效
阅读更多2024-09-22
sql语法学习
SQL（Structured Query Language）是一种用于管理和操作关系型数据库的标准化语言。它允许用户通过一系列的语句来定义、查询、更新和管理数据库中的数据。掌握SQL语法对于数据库开发
阅读更多2024-09-22
哔哩哔哩自动批量删除抽奖动态解析篇（二）
自动删除B站已开奖的官方抽奖动态
阅读更多2024-09-22
【Linux】【Hadoop】大数据基础实验一
Hadoop运行在Linux系统上，因此，需要学习实践一些常用的Linux命令。本实验旨在熟悉常用的Linux操作和Hadoop操作，为顺利开展后续其他实验奠定基础。cd命令：切换目录（1）切换到目录
阅读更多2024-09-22
【C++】list详解及模拟实现
list介绍，模拟实现
阅读更多2024-09-22
win11 wsl2安装ubuntu22最快捷方法
很久之前是wsl已经安装了ubuntu20，记得当时安装比较麻烦，现在由于要搞k8s，需要用到cgroup V2，wsl要启用cgroup V2最好的解决方案就是使用ubuntu22，好吧，那就安装u
阅读更多2024-09-22

Transformer学习记录（5）：Batch Normalization与Layer Normalization

简介

Batch Normalization

原理

在pytorch中的使用

Layer Normalization

相关文章