Transformer中Layer Normalization及其在推理时如何作用？

🕗 发布于 2024-07-20 20:30 transformer 深度学习 人工智能

在Transformer中，Layer Normalization是一种正则化技术，旨在提高模型的训练速度和稳定性。它的详细过程和在推理时的作用可以分为以下几个部分：

1. Layer Normalization的过程

Layer Normalization主要用于标准化每个输入Token的特征向量，使其均值为0，方差为1。具体步骤如下：

计算均值：
对于输入向量 $\in \mathbb{R}^d$ （维度为 $d$ ）： $\mu = \frac{1}{d} \sum_{i=1}^{d} x_i$
计算方差： $\sigma^2 = \frac{1}{d} \sum_{i=1}^{d} (x_i - \mu)^2$
标准化： $\hat{x}_i = \frac{x_i - \mu}{\sqrt{\sigma^2 + \epsilon}} \quad \text{for } i = 1, 2, \ldots, d$ 其中， $\epsilon$ 是一个小常数，防止除以零。
缩放和偏移：
使用可学习的参数 $\gamma$ 和 $\beta$ 进行缩放和偏移： $y_i = \gamma \hat{x}_i + \beta$

2. Layer Normalization在推理时的作用

在推理阶段，Layer Normalization的行为如下：

保持参数不变：
在推理阶段， $\gamma$ 和 $\beta$ 的值保持不变，直接使用训练阶段学到的参数。这意味着模型在推理时依赖于训练期间学习到的特征缩放和偏移方式。
标准化操作：
对于每个Token，其特征向量在推理时会执行标准化操作，具体步骤与训练阶段相同。每个Token的特征向量在输入到下一层之前会被独立标准化，从而确保模型对输入数据的响应更加一致。
提高推理效率和稳定性：
通过Layer Normalization，推理时的输入数据经过标准化，减少了因输入特征分布变化引起的不稳定性。这有助于保持模型在不同输入下的表现一致性，尤其是在处理长文本或复杂结构时。

原文地址：https://blog.csdn.net/Zzzzyc_/article/details/140451991

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：02-Spring Core中的设计模式分析
下一篇：【SQL】分库分表带来的问题以及解决方案

【电脑】解决DiskGenius调整分区大小时报错“文件使用的簇被标记为空闲或与其它文件有交叉”
本文介绍如何解决DiskGenius调整分区大小时报错“文件使用的簇被标记为空闲或与其它文件有交叉”的错误。
阅读更多2024-11-16
UNI-APP小程序答题功能开发(左右滑动,判断,填空,问答,答题卡,纠错,做题倒计时等)
这里没啥好说的,就是根据不同的状态显示不同的内容。
阅读更多2024-11-16
ES6更新的内容中什么是proxy
Proxy 是 ES6（ECMAScript 2015）中引入的一个新的内置对象，用于定义某些操作的自定义行为（如属性查找、赋值、枚举、函数调用等）。通过创建一个对象的 Proxy，你可以控制对这个对
阅读更多2024-11-16
OTX 架构开发
（一）开发环境搭建编程环境配置根据选定的编程语言，安装相应的开发工具和编译器。如果选择 Java，安装 JDK（Java Development Kit），并配置环境变量。选择合适的集成开发环境（I
阅读更多2024-11-16
领夹麦克风哪个品牌好，手机领夹麦克风哪个牌子好，选购推荐
它最大的优势就是具有高度的灵活性，而且不受距离的过多限制，能够保证声音清晰、传输稳定，让交流沟通毫无阻碍。在此，我根据自己的选购经验以及周围朋友使用后的反馈情况，总结出了无线麦克风中那些销量靠前、口碑
阅读更多2024-11-16
SQL，力扣题目1126，查询活跃业务
(business_id, event_type) 是这个表的主键（具有唯一值的列的组合）。表中的每一行记录了某种类型的事件在某些业务中多次发生的信息。1、CTE表达式 + 窗口函数 + group
阅读更多2024-11-16
客运购票售票小程序校园巴士预约售票小程序开发方案php+uniapp
客运购票小程序开发，开发语言后端php，前端uniapp。
阅读更多2024-11-16
电子电气架构 --- 车载48V系统
电子电气架构 --- 车载48V系统
阅读更多2024-11-16
每日OJ题_牛客_DP36 abb_C++_Java
每日OJ题_牛客_DP36 abb_C++_Java（用abb中第一个出现的b来考虑，一个字符作为第一b能产生的abb字符，等于它后面相同的字符数量（意味着还能凑成多少个bb）乘以它前面与它不相同的字
阅读更多2024-11-16
51单片机基础03 矩阵按键读取与外部中断读取
介绍了独立按键读取、51单片机外部中断、矩阵按键读取等
阅读更多2024-11-16

Transformer中Layer Normalization及其在推理时如何作用？

1. Layer Normalization的过程

2. Layer Normalization在推理时的作用

相关文章