GRU(门控循环单元)详解

🕗 发布于 2024-11-17 02:52 gru 人工智能 机器学习 神经网络

1️⃣ GRU介绍

前面介绍的LSTM可以有效缓解RNN的梯度消失问题，但是其内部结构比较复杂，因此衍生出了更加简化的GRU。GRU把输入门和遗忘门整合成一个更新门，并且合并了细胞状态和隐藏状态。于2014年被提出

2️⃣ 原理介绍

GRU的结构和最简单的RNN是一样的。当前输入为 $x_t$ ，上一个节点传递下来的隐层状态为 $h_{t-1}$ ，这个隐层状态包含了之前节点的相关信息。根据 $x_t$ 和 $h_{t-1}$ ，GRU会得到当前时间步的输出 $y_t$ 和传递给下一个节点的隐层状态 $h_t$ ，实际上 $y_t$ 就是等于 $h_t$
在这里插入图片描述
下面介绍详细的原理，下图展示了GRU的详细结构：

第一步，计算重置门，它的参数是 $W_r$ ，用于控制之前的记忆需要保留多少。该门的输入是前一个隐层状态 $h_{t-1}$ 以及当前时间步的输入 $x_t$ ，输出为 $r_t$ ，在0到1之间，：
$r_{t}=\sigma\left(W_{r}\cdot[h_{t-1},x_{t}]\right)$ 其中， $\sigma$ 表示sigmoid激活函数

第二步，我们来看更新门，它的参数为 $W_z$ ，它将LSTM中的输入门和遗忘门结合，决定当前时间步应该保留多少以前的记忆，多少新信息应该加入。该门的输入也是前一个隐层状态 $h_{t-1}$ 以及当前时间步的输入 $x_t$ ，省略了偏置参数 $b$ ，输出为 $z_t，在0到1之间，$ 公式具体表达为：
$z_{t}=\sigma\left(W_{z}\cdot[h_{t-1},x_{t}]\right)$ 其中， $\sigma$ 表示sigmoid激活函数

第三步，计算输入值，输入值由前一个隐层状态 $h_{t-1}$ ，当前的 $x_t$ 以及重置门 $r_t$ 得到。 $r_{t}*h_{t-1}$ 可以理解为之前的记忆保留多少来学习新的内容 $x_t$ ， $\tilde{h}_{t}$ 相当于利用之前的记忆对新的内容理解的部分
$\tilde{h}_{t}=\operatorname{tanh}\left(W\cdot[r_{t}*h_{t-1},x_{t}]\right)$

第四步，计算当前输出 $h_t$ ，由两部分，一部分是之前信息的影响 $h_{t-1}$ ，后一部分是当前输入的影响 $\tilde{h}_t$ 。 $z_{t}$ 是更新门的输出，取值在0-1之间。给 $h_{t-1}$ 赋予 $1-z_t)$ 权重，给 $\tilde{h}_t$ 赋予 $z_{t}$ 权重：

$\begin{aligned}h_t=(1-z_t)*h_{t-1}+z_t*\tilde{h}_t\end{aligned}$

我前面写的这篇文章中介绍了为什么RNN会有梯度消失和爆炸：点这里查看

主要原因是反向传播时，梯度中有这一部分：
$\prod_{j=k+1}^3\frac{\partial s_j}{\partial s_{j-1}}=\prod_{j=k+1}^3tanh^{'}W$

那么GRU如何缓解RNN的梯度消失问题呢？

在GRU里，隐层的输出换了个符号，从 $s$ 变成 $h$ 了。因此我们来分析一下 $\frac{\partial h_t}{\partial h_{t-1}}$ 。我们可以得到：
$\frac{\partial h_t}{\partial h_{t-1}}=(1-z_t)+\ldots$

因此我们可以通过控制更新门的输出 $z_t$ 来控制梯度，以缓解梯度消失问题

3️⃣ 总结

GRU和LSTM对比：
GRU通过控制更新门的输出 $z_t$ 来控制梯度，以缓解梯度消失问题

4️⃣ 参考

原文地址：https://blog.csdn.net/qq_42980908/article/details/143772040

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：演员王子辰—专注革命题材《前行者》后再出发
下一篇：LPDDR4芯片学习（四）——DDR Training

Nuxt.js 应用中的 schema：beforeWrite 事件钩子详解
钩子为开发者提供了一个灵活的接口，以便在写入 JSON Schema 之前进行必要的修改和验证。这使得开发者可以在构建过程中插入自定义逻辑，有助于提高应用的稳定性和准确性。钩子允许开发者在 JSON
阅读更多2024-11-17
Python习题 249：判断两个单词为相同字母异序词
（编码题）编写一个函数，判断两个单词（字符串）中有相同的单词（字符），即相同字母异序词。
阅读更多2024-11-17
第四章：ArkTS 语句全解：从基础到高级的控制流与异常处理
本文详细介绍了 ArkTS 中的多种语句，这些语句对于构建程序逻辑、控制执行流程和处理异常至关重要。
阅读更多2024-11-17
Vue.js中computed的使用方法
在Vue.js中，computed 属性是基于它们的依赖进行缓存的响应式属性。这意味着只要computed属性依赖的源数据（如data中的属性）没有发生变化，多次访问computed属性会立即返回之前
阅读更多2024-11-17
【团标】《软件造价评估实施规程》（T-BSCEA002—2023）-标准解读系列14
而对于软件造价业务开展过程中，基准数据以及相关调整因子的选取判定、评估工作开展具体步骤环节、造价输出成果要求（如造价清单、造价报告）等，《软件造价评估实施规程》（T-BSCEA002—2023）则提供
阅读更多2024-11-17
效益登记册&效益管理计划
-全生命周期会update。集商业论证、组织战略计划和其他相关项目集自标。定义管理效益所需的角色和职责;
阅读更多2024-11-17
我手搓了个“自动生成标书”的开源大模型工具
最近我写开源商业文章明显更新少了，不是我不写文章了，而是开源商业化进展很顺利，我写文章的时间都被各种写标书占满了。作为一个开源原生的商业公司，白鲸开源公司的员工几乎都是程序员，而让这些开源贡献者写标书
阅读更多2024-11-17
奥迪股份如何通过升级至SAP S/4HANA实现财务与后勤的高效整合？
为了避免成本高昂的临时解决方案，奥迪公司希望将所有工厂后勤（后勤和生产的一部分）同时迁移到SAP S/4HANA，并集成到生产模板“Progress”中。随着多个项目的筹备，奥迪股份公司在 2023
阅读更多2024-11-17
linux逻辑卷练习
从新硬盘制作三个分区每个分区都 3GB大小，将三个分区只作为物理卷，通过这三个物理卷创建卷组通过卷组生成一个逻辑卷，大小为7G，再将逻辑卷调整到10G。物理卷（physical volume）：简
阅读更多2024-11-17
Vagrant 没了 VirtualBox 的话可以配 Qemu
之前一直是用 Vagrant 搭配 VirtualBox 在 Mac 下使用 Linux 虚拟机，因为不需要用到 Linux 桌面，用 Vagrant 操作虚拟机非常方便。有些尚未听说过，还有一些虽说
阅读更多2024-11-17

GRU(门控循环单元)详解

1️⃣ GRU介绍

2️⃣ 原理介绍

3️⃣ 总结

4️⃣ 参考

相关文章