深度学习笔记（6）——循环神经网络RNN

🕗 发布于 2024-12-31 03:43 深度学习 笔记 人工智能 机器学习 学习

循环神经网络

RNN

核心思想:RNN内部有一个“内部状态”,随着序列处理而更新 $h_t=f_W(h_{t-1},x_t)$
一般来说 $h_t=tanh(W_{hh}h_{t-1}+W_{xh}x_t)$
$h_t$ 是new state, $h_{t-1}$ 是old state, $x_t$ 是当前时间步的输入,所有时间步共享 $f_W$ 这个函数和参数
$y_t=W_{hy}(h_t)$ 是当前时间步的输出

分块损失计算:计算所有时间步的前向传播,但只在每时间块内进行反向传播

RNN:
RNN的各种输出
one-to-many:两种情况:

x作为输入就最开始的一次,输出为 $y_1,y_2...$
x作为输入多次,每轮都有x作为输入,输出为 $y_1,y_2...$

many-to-many:两种情况:

输入、输出都是等长的序列数据。每一步使用的参数U、W、b都是一样的,也就是说每个步骤的参数都是共享的,这是RNN的重要特点,一定要牢记。
输入输出不等长: encoder-decoder结构,Encoder先将输入数据编码成一个上下文语义向量c，语义向量c可以有多种表达方式，最简单的方法就是把Encoder的最后一个隐状态赋值给c，还可以对最后的隐状态做一个变换得到c，也可以对所有的隐状态做变换。拿到c之后，就用另一个RNN网络对其进行解码，这部分RNN网络被称为Decoder

RNN优势:

可以处理任意长度的序列
步骤t的计算(理论上)可以使用之前许多步骤的信息
输入时间越长,模型尺寸就越大
每个时间步都使用了相同的权重

RNN缺点:

循环计算速度慢
在实践中,很难从多个步骤中获取信息(遗忘)

多层RNN

将许多RNN层堆叠，构成一个多层RNN网络。
在这里插入图片描述
RNN中会遇到梯度消失和梯度爆炸问题：

最大奇异值大于1：梯度爆炸 $\rightarrow$ 梯度裁剪
最大奇异值小于1：梯度消失 $\rightarrow$ 改进RNN结构

LSTM

LSTM引入了三个门( 输入门、遗忘门、输出门)和一个细胞状态(cell state)
在这里插入图片描述
LSTM可以在一定程度上解决梯度消失和梯度爆炸的问题,但不是完全解决
LSTM架构使RNN更容易在多个时间步长内保存信息
LSTM的连乘是 $C_t$ 对 $C_{t-1}$ 的偏导的不断累乘,如果前后的记忆差别不大,那偏导的值就是1,那就是多个1相乘。当然,也可能出现某一一些偏导的值很大,但是一定不会很多(换句话说,一句话的前后没有逻辑,那完全没有训练的必要)。
LSTM使用 $tanh(x)=\frac{e^x-e^{-x}}{e^x+e^{-x}}$ 函数,而不用Sigmoid函数的原因:

Sigmoid函数比Tanh函数收敛饱和速度慢
Sigmoid函数比Tanh函数值域范围更窄
tanh的均值是0,Sigmoid均值在0.5左右,均值在0的数据显然更便于数据处理
tanh的函数变化敏感区间更大
对两者求导,发现tanh对计算的压力更小,直接是1-原函数的平方,不需要指数操作

forget gate：选择忘记过去某些信息
Sigmoid的结果:0表示要忘记的部分，1表示记忆保留的部分
在这里插入图片描述
input gate：记忆现在的某些信息

在这里插入图片描述
$i_t$ 门控信号决定了当前时间步应该更新细胞状态的哪些部分
$\widetilde C_t$ 候选记忆单元代表了当前时间步可能被加入到细胞状态中的新信息
将过去与现在的记忆进行合并

output gate：输出

GRU

可以被看作是LSTM的简化版。它保留了门控机制中的更新门和重置门,用于控制信息的流动,但省略了LSTM中的单独记忆单元。相比LSTM,GRU拥有更少的参数,因此计算效率更高,通常在一些任务上可以获得相近甚至更好的效果。

循环神经网络总结

RNN在架构设计中提供了很大的灵活性
RNN很简单，但效果不太好，RNN中梯度的反向流动可能会爆炸或消失
常用LSTM或GRU:它们改善了梯度流

原文地址：https://blog.csdn.net/m0_74259787/article/details/144752157

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：树型DP # 战略游戏
下一篇：Docker基础知识 Docker命令、镜像、容器、数据卷、自定义镜像、使用Docker部署Java应用、部署前端代码、DockerCompose一键部署

迅为瑞芯微RK3562开发板/核心板应用于人脸跟踪、身体跟踪、视频监控、自动语音识别(ASR)、图像分类驾驶员辅助系统(ADAS)、车牌识别、物体识别等
iTOP-3562开发板/核心板采用瑞芯微RK3562处理器，内部集成了四核A53+Mali G52架构，主频2GHZ，内置1TOPSNPU算力，RK809动态调频。支持几乎全格式的H.264解码，支
阅读更多2024-12-31
低精度只适用于未充分训练的LLM？腾讯提出LLM量化的scaling laws
尽管有一些研究声称原生的低比特LLM可以媲美fp16/bf16精度下的表现，但这些研究普遍都是在未充分语言模型上得到的结果从而推出的结论，研究人员认为在充分训练的情况下进行比较的话，低比特LLM也将很
阅读更多2024-12-31
医疗数仓配置Flume
Flume需要将Kafka中各topic的数据传输到HDFS，因此选用KafkaSource以及HDFSSink。对于安全性要求高的数据（不允许丢失）选用FileChannel，允许部分丢失的数据如日
阅读更多2024-12-31
Go中CAS算法
CAS算法常被用作乐观锁的实现方式，用于解决并发问题。例如，在计数器、缓存等场景中，可以使用CAS算法来确保数据的一致性和正确性。CAS操作会检查内存位置V的当前值是否与预期的旧值A相等。这一操作是原
阅读更多2024-12-31
Node.js 记账本项目总结
在使用Node.js结合Express框架构建记账本的过程中，遇到了一些常见的问题，这些问题主要集中在路径处理、包管理工具的选择、开发环境优化以及HTTP响应处理等方面。
阅读更多2024-12-31
Java 处理base64文件上传
在系统内有一个类似于公告的模块，如果里面添加的文章不是选择富文本上传图片的方式，而是选择复制别的文章直接粘贴到系统内的富文本，里面的图片就不会url，而是图片的base64格式，这样会导致数据库存储压
阅读更多2024-12-31
Tailwind CSS 实战：现代登录注册页面开发
基础结构搭建表单组件开发社交登录集成响应式适配深色模式支持动画效果表单验证性能优化可访问性增强通过合理使用 Tailwind CSS 的原子类，我们不仅实现了美观的界面，还确保了良好的用户体验和可维护
阅读更多2024-12-31
node.js下载、安装、设置国内镜像源（永久）（Windows11）
系统：Windows 11。
阅读更多2024-12-31
Slate文档编辑器-Decorator装饰器渲染调度
在这里我们主要讨论了slate中的decoration装饰器的实现，以及在实际使用中可能会遇到的问题，主要是在跨节点的情况下，我们需要将range拆分为多个range，然后分别进行处理，并且还分析了源
阅读更多2024-12-31
python去水印
请注意，这种方法仅适用于简单的水印去除，对于复杂的水印或嵌入到图像纹理中的水印，可能无法达到理想的效果。在实际应用中，还可以考虑使用深度学习的方法，如生成对抗网络（GAN）来去除水印，但需要大量的数据
阅读更多2024-12-31

深度学习笔记（6）——循环神经网络RNN

循环神经网络

RNN

多层RNN

LSTM

GRU

循环神经网络总结

相关文章