layernorm笔记

🕗 发布于 2024-10-07 23:07 笔记

文章目录

layer norm的解释
- 二维
- 三维
batchnorm和layernorm主要的区别
为什么要在序列转录模型中使用layer norm？

layer norm的解释

二维

红色为batchnorm，蓝色为layer norm
batchnorm对每一个特征算均值和方差
layer norm对每一个批次算均值和方差
在这里插入图片描述

三维

红色为batchnorm，蓝色为layer norm
batchnorm对每个句子的第K个词做归一化
layer norm对每个句子的每个词做归一化
在这里插入图片描述

batchnorm和layernorm主要的区别

在算均值和方差的上面

batchnorm

在这里插入图片描述
理论算矩阵中阴影面积中的方差和均值，实际算整个矩阵中的方差和均值阴影部分的长度为小批量中的句子长度，用0补全

均值和方差波动比较大
预测时，如果预测样本的长度超过训练样本的最大长度，使用训练的均值和方差效果可能不是那么好
layernorm

矩阵中阴影部分的面积算方差和均值
每个样本（每个句子里面自己所有的词）自己算均值和方差，不需要存一个全局的均值和方差，因为是对每个样本做的norm。

为什么要在序列转录模型中使用layer norm？

在时序的样本中，每个样本的长度可能发生变化
源自李沐论文讲解

原文地址：https://blog.csdn.net/qq_70770395/article/details/142744123

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：LeetCode 213. 打家劫舍 II
下一篇：基坑气膜：考古发掘的智能保护方案—轻空间

BUU刷题-Pwn-jarvisoj_typo(ARM符号表恢复技术,Rizzo,FLIRT)
通过IDA动态调试和符号表恢复找到目标函数,存在read函数溢出再通过pwndbg来计算栈溢出的长度是112再通过RopGadgets找到gadget,用来传参和调用函数由于是静态程序就一定会存在很多
阅读更多2024-10-11
【原创教程】电气电工23：电气柜的品牌及常用型号
好夫满有很多种类的机箱，EB精巧控制箱系列、KL接线箱系列、BKL不锈钢接线箱系列、GB挂壁箱系列、BGB不锈钢挂壁系列、GB立式控制箱系列、BGB不锈钢立式控制箱系列、AK豪华立式控制箱系列、BAK
阅读更多2024-10-11
C++学习笔记（54）
cout << "文件信息结构体" << fileinfo.filename << "(" << fileinf
阅读更多2024-10-11
黑马javaWeb笔记重点备份2:mybatis基础（注解方式）、数据库连接池概念、lombok使用
Lombok是一个实用的Java类库，可以通过简单的注解来简化和消除一些必须有但显得很臃肿的Java代码。通过注解的形式自动生成构造器、getter/setter、equals、hashcode、to
阅读更多2024-10-11
Go-知识泛型
除了内置的comparable和any两种类型可作为类型约束使用，用户还可以使用interface来定义类型集合。任意类型元素(如 int)近似类型元素(使用表示法，如int)联合类型元素(使用|表示
阅读更多2024-10-11
基于GoogleNet深度学习网络的手语识别算法matlab仿真
基于GoogleNet深度学习网络的手语识别算法，是一种利用卷积神经网络（Convolutional Neural Networks, CNN）来识别手语手势的方法。GoogleNet，也被称为Inc
阅读更多2024-10-11
低代码可视化-uniapp商城首页小程序-代码生成器
在设计一个小程序的首页时，包含轮播图、通知栏和商品列表这三个元素是非常常见且有效的布局方式。这样的设计既能够吸引用户的注意力，又能够高效地展示信息和商品。
阅读更多2024-10-11
Linux_kernel中断系统13
在系统启动 \ 热插拔和动态加载模块时，自动创建设备节点文件系统中的/dev目录下的设备节点都是由mdev创建的在加载模块时根据驱动程序，可以在/dev/目录下自动创建设备文件中断处理函数存在的疑虑
阅读更多2024-10-11
如何通过USB插口分清慢充和快充充电器
因此，不同的颜色代表着不同的速度和功能，大多数情况是这样设计的，当然也有一些厂商为了外观颜值改变接口颜色，没有完全统一的标准。目前大多数的USB接口以黑色和蓝色偏多，尤其是电脑端口，并且蓝色USB3.
阅读更多2024-10-11
Vue3的学习（二）路由
简单路由案例：配置路由规则，createWebHistory是指定路由的工作模式，routes中的每个元素都是一个配置好的路由，其中path是路由的路径，component是该路由对应的组件挂载app
阅读更多2024-10-11

layernorm笔记

文章目录

layer norm的解释

二维

三维

batchnorm和layernorm主要的区别

为什么要在序列转录模型中使用layer norm？

相关文章