【自然语言处理】（3） --RNN循环神经网络

🕗 发布于 2024-10-10 08:05 自然语言处理 rnn 人工智能 深度学习 神经网络

文章目录

RNN循环神经网络
总结

RNN循环神经网络

循环神经网络（RNN，Recurrent Neural Network）是一种用于处理序列数据的神经网络模型。其关键特性在于网络节点（神经元）之间形成了循环连接，这使得RNN能够捕捉数据中的时间依赖性和序列特性。

一、传统神经网络的问题

序列数据：如文本、语音、股票、时间序列等数据，当前数据内容与前面的数据有关。

问题：无法训练出具有顺序的数据。模型搭建时没有考虑数据上下之间的关系。

比如：将“我要去打篮球”，分词后“我”，“要”，“去”，“打”，“篮球”，放进神经网络中训练得到一个结果之后。此时更改为“我要打篮球去”，模型可能就识别不出来了，没有办法将词语的上下词关系联系到一起。因为传统神经网络的每个输入层之间是没有建立关系的。

在这里插入图片描述

于是，我们提出了一种新的神经网络模型RNN。

二、RNN的基本结构

RNN的基本单元是一个带有循环连接的神经元（也称为RNN单元或节点）。在处理序列输入时具有记忆性，可以保留之前输入的信息并继续作为后续输入的一部分进行计算。

输入：

每个RNN单元接收两个输入：当前时间步的输入词向量x和上一个时间步的隐藏状态h（之前保留的信息）。RNN单元的输出是当前时间步的隐藏状态h，这个输出可以被传递到下一个时间步的RNN单元，也可以用于生成当前时间步的输出y（如果有需要的话）。

在这里插入图片描述

输出：

RNN结构中输入是x1, x2, …xn，输出为y1, y2, …yn，也就是说，输入和输出序列必须要是等长的。

但是，对于每个层都会计算的y结果，我们一般情况只需要最后一层的输出结果，因为只有它是吸收所有信息后的结果，前面层的结果几乎不要。

当模型的输出层是softmax或sigmoid函数时，输出将是概率值。交叉熵损失函数特别适用于这种情况，因为它直接操作概率值，而不是原始分数或类别标签。

在这里插入图片描述

三、计算过程

RNN的展开形式（Unfolding）有助于理解其工作原理。

注意：展开后，RNN看起来像是一个多层的前馈神经网络，但每一层的权重是共享的，每层的U、W、b是一样的，这是RNN的重要特点。这种权重共享机制使得RNN能够处理任意长度的序列，而不需要为每个时间步训练不同的权重。

在这里插入图片描述

如此计算就可以保留序列数据的关系，比如，”今天我要去打球“，分词后”今天“，”我要“，”去“，”打球“，传入循环神经网络：

在这里插入图片描述

每一层训练都保留了上一层训练的特征信息，从而使得最后的输出结果保留了所有单词的特征信息，这样模型预测时，输入”我要打球去今天“，只要特征信息对应上就可以理解为相同意思。

4. RNN的局限

局限：

当出现“我的职业是程序员，…,我最擅长的是电脑”。当需要预测最后的词“电脑”。当前的信息建议下一个词可能是一种技能，但是如果我们需要弄清楚是什么技能，需要先前提到的离当前位置很远的“职业是程序员”的上下文。

这说明相关信息和当前预测位置之间的间隔就变得相当的大。在理论上，RNN绝对可以处理这样的长期依赖问题。人们可以仔细挑选参数来解决这类问题中的最初级形式，但在实践中，RNN则没法太好的学习到这些知识。

原因：

梯度会随着时间的推移不断下降减少，而当梯度值变得非常小时，就不会继续学习。

形象类似于，一个学生学知识，一次性学了五六个小时的知识，脑袋已经记不进去东西了，学不进去了。但是人类还可以记得大部分的知识，因为人类有一个特点，那就是可以抓获关键词，但是RNN神经网络不行，传进去一个词就记一个，到后来，学不进去了。

解决问题：

创建LSTM网络模型，一种RNN网络的特殊类型，可以长期依赖信息。我们下篇介绍。

总结

本篇介绍了：

传统神经网络的每个输入层之间是没有建立关系的，无法训练出具有顺序的数据。
RNN的基本结构，保留之前输入的信息并继续作为后续输入的一部分进行计算。
重要特点：RNN看起来像是一个多层的前馈神经网络，但每一层的权重是共享的，每层的U、W、b是一样的。
局限：梯度会随着时间的推移不断下降减少，而当梯度值变得非常小时，就不会继续学习。

原文地址：https://blog.csdn.net/m0_74896766/article/details/142795083

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：OceanBase 4.x 部署实践：如何从单机扩展至分布式部署
下一篇：单片机（学习）2024.10.9

股市入门常见术语介绍
股市入门常见术语科普
阅读更多2024-10-11
金融期货市场中的对冲策略及应用
对冲策略通过期货合约的买卖，帮助市场参与者减轻价格波动的影响，从而在不确定的市场环境中获得稳定的收益。例如，某一商品期货在纽约交易所和伦敦交易所的价格存在差异时，投资者可以在价格较低的市场买入，同时在
阅读更多2024-10-11
网优学习干货：王者荣耀游戏用户体验洞察及质差识别（1）
针对热点游戏（王者荣耀）进行业务质量评估，并通过对端到端定界分析，从无线、核心网、互联网维度识别影响用户体验关键因素，为游戏用户的体验优化提供依据。
阅读更多2024-10-11
静态IP与动态IP的选择分析
静态IP与动态IP的选择分析
阅读更多2024-10-11
股指期货的杠杆是怎么体现和使用的？
如果账户中的资金低于维持保证金所要求的金额，投资者将收到一个保证金催缴通知，要求向账户中注入更多资金，否则账户将被强制平仓。股指期货的杠杆效应是通过保证金交易实现的。例如，如果一个股指期货合约的价值为
阅读更多2024-10-11
基于STM32 ARM+FPGA+AD的电能质量分析仪方案设计(一）硬件设计
以确保其具有足够的计算能力和运行速度处理复杂的运算，从而保证系统的效率、和维护性更高，需要大量人力和物力投入，增加了系统的开发和维护成本。高效的计算和处理任务。处理器，提供更完善的功能和更强大的性能，
阅读更多2024-10-11
高级java每日一道面试题-2024年10月9日-JVM篇-什么是双亲委派模型?
双亲委派模型（Parent Delegation Model）是Java类加载器（ClassLoader）的一种工作模式。这种模型确保了Java类的加载过程具有良好的层次结构和安全性，避免了类的重复加
阅读更多2024-10-11
[linux] 在VMware中安装linux、文件下载及详细安装过程（附下载链接）
链接：https://pan.quark.cn/s/b99760438175。选择安装程序光盘映像文件，点击浏览，找到刚才下载的.iso文件，点击下一步。设置镜像最大大小，默认20即可（实际会使用3G
阅读更多2024-10-11
Django-rest-framework(DRF)怎么实现Excel文件导出
a、创建工作簿openpyxl.Workbook() #创建一个新的工作簿对象。
阅读更多2024-10-11
markdown里粘贴图片的同时保存路径在vscode里实现
下载扩展Markdown Image。
阅读更多2024-10-11

【自然语言处理】（3） --RNN循环神经网络

文章目录

RNN循环神经网络

一、传统神经网络的问题

二、RNN的基本结构

三、计算过程

4. RNN的局限

总结

相关文章