llama 2 改进之 RMSNorm

🕗 发布于 2024-07-18 17:11 llama

RMSNorm
在这里插入图片描述
论文假设LayerNorm中的重新居中不变性是可有可无的，并提出了均方根层归一化(RMSNorm)。RMSNorm根据均方根(RMS)将一层神经元的总和输入正则化，得到模型重新缩放不变性特性和隐式学习率适应能力

LayerNorm 公式

深度学习当中，没有线性激活函数的预测公式

$\begin{aligned}a_i=\sum_{j=1}^mw_{ij}x_j,\quad y_i=f\left(a_i+b_i\right),\end{aligned}$

通过激活函数后，其中，随着前一层的更新，层的输入分布会发生变化。这可能会对参数梯度的稳定性产生负面影响，延迟模型收敛。为了减少这种转变，LayerNorm 对求和的输入进行归一化，以固定它们的均值和方差，如下所示：

$\begin{aligned}\bar{a}_i=\frac{a_i-\mu}{\sigma}g_i,\quad y_i=f\left(\bar{a}_i+b_i\right),\end{aligned}$

其中 $\bar{a}_i$ 是向量 $\bar{a}\in\mathbb{R}^n$ 的第 $i$ 个值，作为 $\alpha_i$ 的归一化替代值用于层激活。 $\mathbf{g}\in\mathbb{R}^n$ 是增益参数，用于重新调整标准化求和输入的大小，一开始设置为 1。 $\mu$ 和 $\sigma^2$ 分别是根据原始求和输入估计的均值和方差统计量。

$\begin{aligned}\mu=\frac{1}{n}\sum_{i=1}^na_i,\quad\sigma=\sqrt{\frac{1}{n}\sum_{i=1}^n(a_i-\mu)^2}.\end{aligned}$

在本文中，假设重新缩放不变性是LayerNorm成功的原因，而不是重新定中心不变性。我们提出了RMSNorm，它只关注重新缩放不变性，并简单地根据均方根（RMS）统计对求和输入进行正则化：
$\begin{aligned}\bar{a}_i=\frac{a_i}{\text{RMS}(\mathbf{a})}g_i,\quad\text{where RMS}(\mathbf{a})=\sqrt{\frac{1}{n}\sum_{i=1}^na_i^2}.\end{aligned}$

原文地址：https://blog.csdn.net/weixin_55982578/article/details/140525798

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：matlab实现建立一个学生成绩管理系统
下一篇：Visual Studio 智能代码插件：CodeGeeX

Midjourney参数详解
Midjourney的参数是添加到提示词中的选项，用于更改图像的生成方式。这些参数可以调整图像的宽高比、风格、质量、随机性等多个方面。
阅读更多2024-09-25
【测试项目】——个人博客系统自动化测试
本文针对个人博客项目进行测试，个人博客主要由四个页面构成：登录页、列表页、详情页和编辑页，主要功能包括：登录、编辑并发布博客、查看详情、删除博客以及注销等功能。对于个人博客的测试就是针对主要功能进行测
阅读更多2024-09-25
汽车零部件开发流程关键阶段
汽车零部件开发流程复杂且多阶段，涵盖从初步设计到最终产品上市的多个关键节点，每个阶段都有其独特的挑战和关键任务。
阅读更多2024-09-25
解决多尺度网络中上采样尺寸不一致问题
在多尺度缩放的网络中，处理图像时常会遇到上采样尺寸不一致的问题。本指南旨在提供一种解决方案，通过填充操作确保上采样尺寸的一致性，从而提升网络的性能。
阅读更多2024-09-25
房屋出租管理系统开发
房屋出租管理系统的主要目标是提高房屋租赁市场的管理效率，为房东、租客、中介等各方提供便捷、高效的信息管理和服务。通过该系统，可以实现房源信息的集中管理、租赁流程的标准化、租金收缴的自动化以及数据的统计
阅读更多2024-09-25
大数据Hologres（一）：Hologres 简单介绍
Hologres是阿里巴巴自主研发的一站式实时数仓引擎（Real-Time Data Warehouse），支持海量数据实时写入、实时更新、实时加工、实时分析，支持标准SQL（兼容PostgreSQL
阅读更多2024-09-25
【Android】DataBinding的运用
是 Android Data Binding 库中的一个特性，它允许开发者定义自定义的绑定适配器，从而将属性或方法绑定到 XML 布局文件中的视图上。这些适配器可以用于处理视图的属性，如图片加载、文本
阅读更多2024-09-25
Redis 键值对数据库学习
redis 是一种 nosql 数据库，他的数据是保存在内存中，同时 redis 可以定时把内存数据同步到磁盘，即可以将数据持久化，并且他比 memcached 支持更多的数据结构( string,l
阅读更多2024-09-25
ubuntu错误GPG error: http://repo.mysql.com/apt/ubuntu noble InRelease
【代码】ubuntu错误GPG error: http://repo.mysql.com/apt/ubuntu noble InRelease。
阅读更多2024-09-25
ssm模糊知识点整合
用于将请求参数绑定到你的方法参数上。：用于将路径变量绑定到你的方法参数上。：用于将请求主体绑定到你的方法参数上，通常用于绑定POST请求的JSON或XML数据。：用于将请求头部信息绑定到你的方法参数上
阅读更多2024-09-25

llama 2 改进之 RMSNorm

相关文章