深度学习基础--GRU学习笔记(李沐《动手学习深度学习》)

🕗 发布于 2025-01-18 08:50 深度学习 gru 学习 rnn lstm

前言

GRU是RNN模型的升级版，也是LSTM的弱化版，学习GRU也是为了学习LSTM做准备，这一篇文章是学习笔记；
RNN：RNN讲解
参考：李沐动手学习深度学习；
欢迎收藏加关注，本人将会持续更新。
文章目录

门控循环单元(GRU)是一种循环神经网络(RNN)的变体，我为了解决RNN在处理长时间序列数据的时候容易出现的梯度消失和梯度爆炸的问题，

回忆RNN

先看回忆RNN的神经网络结构：

在这里插入图片描述

可以看到，RNN每一次更新隐藏层的时候，权重W都是一样的，也就是说每一次更新隐藏层的时候，都是使用一样的权重，也就说看待之前的状态重要程度都是一样的。

举个例子：

在这里插入图片描述

这个例子中，每一个观察的值都不是同等重要，也就是说这个时候再用RNN模型就不太合适了，为了解决这种问题，RNN模型提供了许多升级的版本，其中著名的有：GRU、LSTM，而LSTM是在GRU的升级版，故本篇学习也是为了学习LSTM打基础。

GRU模型结构组成

更新门

表示：Z_t ，它决定了需要从前一个时刻的隐藏状态h_t-1和当前输入数据x_t中要保留多少信息来更新当前的有隐藏状态h_t，计算公式如下：

在这里插入图片描述

其中，激活函数作用：将输出映射到0和1之间。

具体更新实现，在当前隐藏状态中实现。

重置门

表示：R_t，它控制者是否要“重置”前一时刻隐藏层的状态，可以类比记忆中的“遗忘”，我们不可能记住前一天的所有事情，计算公式如下：

在这里插入图片描述

具体实现在候选隐藏状态中。

这个时候GRU神经网络可以表示，如下图所示：

在这里插入图片描述

候选隐藏状态

这个门，实现的功能：决定吸取多少之前的隐藏状态信息和当前输入的数据，计算公式和网络结构如下如下：

在这里插入图片描述

当**R_t**为0的时候，就不要之前的隐藏信息的状态，**W_xh**决定着吸取当前输入数据的多少。

当前隐藏状态

当前隐藏转态：H_t，它决定输出的大小，融合前一层的隐藏状态和候选的隐藏状态，，如图：

在这里插入图片描述

这里有两个极端：

当Z_t为0的时候，说明对上一层的隐藏状态选择遗忘，这个时候就等于重置门“吸收”多少当前输入与前一层隐藏状态的结合体了 🤠;
当Z_t为1的时候，说明完全保留上一层的隐藏状态，这个其实就是RNN模型的隐藏状态更新。

在这里插入图片描述

工作原理

在每个时间步t：

首先计算更新门Zt和重置门Rt，这两个门的值决定了如何利用前一时刻的隐藏状态Ht−1和当前时刻的输入 Xt
然后根据重置门Rt计算候选隐藏状态 H_t ，它是在对前一时刻隐藏状态进行了一定程度的 “重置” 后，结合当前时刻输入得到的。
最后通过更新门Zt将前一时刻隐藏状态 Ht−1 和候选隐藏状态 H~t 进行融合，得到当前时刻的隐藏状态Ht。这个过程不断重复，使得 GRU 能够沿着时间序列处理数据，逐步更新隐藏状态并捕捉序列中的信息。

举个例子：

如何我们从左往右看，RNN的缺点的每一次更新隐藏层权重一样，如果我们看这个例子，如果看到一只老鼠，这个时候，老鼠的权重肯定要高于其他，尤其是后面的，这个时候GRU的候选隐藏层代表了这个老师前面需要吸收状态，而当前隐藏状态说明了这个后下一个猫需要吸收多少状态。

当然神经网络很深奥，好需要不断在实践学习。

原文地址：https://blog.csdn.net/weixin_74085818/article/details/145216193

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：如何爬取淘宝详情接口
下一篇：从零创建一个 Django 项目

嵌入式杂谈——什么是DMA？有什么用？
在嵌入式系统和计算机体系结构中，是一种重要的数据传输技术。它允许外设（如UART、SPI、ADC等）直接与内存进行数据交换，而无需CPU的干预。DMA技术可以显著提高系统的效率和性能，尤其是在需要高速
阅读更多2025-01-18
C#+ckeidtor5实现图片上传
C#+ckeidtor5实现图片上传
阅读更多2025-01-18
R语言绘图
将CSV文件同一在一个路径下，用代码合并。
阅读更多2025-01-18
【Python】深入探讨Python中的单例模式：元类与装饰器实现方式分析与代码示例
单例模式（Singleton Pattern）是一种常见的设计模式，它确保一个类只有一个实例，并提供一个全局访问点。在Python中，实现单例模式的方式多种多样，包括基于装饰器、元类和模块级别的单例实
阅读更多2025-01-18
OpenCV入门学习
cv2.imshow('原图',img1)
阅读更多2025-01-18
使用 ChatGPT 生成和改进你的论文
我是虚竹哥，目标是带十万人玩转ChatGPT。
阅读更多2025-01-18
C# OpenCV机器视觉:区域生长算法
然后呢，算法施展它的魔力，让那些颜色、纹理跟掌门相似的像素点，就像是江湖中的各路豪杰，纷纷投奔而来，慢慢汇聚成一个庞大的门派，哦不，是一片完整的区域。他伸了个大大的懒腰，望向窗外逐渐明亮的天空，心中满
阅读更多2025-01-18
Jenkins-git配置说明！
git是流行的分布式控制系统。在jenkins中有许多插件提供了对git的支持。
阅读更多2025-01-18
记一次数据库连接 bug
MySQL连接错误
阅读更多2025-01-18
【VOS源码解析-2024CVPR-Cutie】2、trainner 结构解析
例如，在一些视觉模型中，像素编码器（backbone）用于提取图像特征，其参数量通常较大，且在训练初期需要较慢的学习速度来稳定地学习通用的特征表示；而一些特定的嵌入层（如位置嵌入、类别嵌入等）则用于为
阅读更多2025-01-18

深度学习基础--GRU学习笔记(李沐《动手学习深度学习》)

文章目录

回忆RNN

GRU模型结构组成

更新门

重置门

候选隐藏状态

当前隐藏状态

工作原理

相关文章