【自然语言处理】（4） --长短期记忆网络LSTM详解

🕗 发布于 2024-10-11 00:29 自然语言处理 lstm 人工智能 长短时记忆网络循环神经网络

文章目录

长短期记忆网络LSTM
总结

长短期记忆网络LSTM

LSTM网络，即长短期记忆网络（Long Short-Term Memory），是一种特殊的循环神经网络（RNN），旨在解决标准RNN在处理长序列数据时容易出现的梯度消失和梯度爆炸问题。

大部分与RNN模型相同，但它们用了不同的函数来计算隐状态。

网络效果：

例如：当你想在网上购买生活用品时，一般都会查看一下其他已购买的用户评价。当你浏览评论时，大脑下意识记住重要的关键词，比如“好看”和“真酷”这样的词汇，而不太会关心“我”、“也”、“是”等字样。如果朋友第二天问你用户评价都说了什么，你不可能会全部记住它，而是说出大脑里记得的主要观点，比如“下次肯定还会来买”，无关紧要的内容自然会从记忆中逐渐消失。

**LSTM （长短时记忆网络）**或 **GRU（门控循环单元）**就是如此，它们可以学习只保留相关信息来进行预测，并忘记不相关的数据。简单说，因记忆能力有限，记住重要的，忘记无关紧要的。

一、结构

LSTM网络的核心是记忆单元（Memory Cell），它可以存储和读取信息。记忆单元由一个细胞状态（Cell State）和三个门控向量（门控机制）组成，这三个门控向量分别是遗忘门（Forget Gate）、输入门（Input Gate）和输出门（Output Gate）。

细胞状态中，保存的是关键信息。

在这里插入图片描述

二、工作原理

遗忘门：

功能：决定应丢弃哪些关键词信息。步骤：来自前一个隐藏状态的信息和当前输入的信息同时传递到 sigmoid 函数中去，输出值介于 0 和 1 之间，越接近 0 意味着越应该丢弃，越接近 1 意味着越应该保留。
输入门：

功能：用于更新细胞状态。

步骤：
1. 首先将前一层隐藏状态的信息和当前输入的信息传递到 sigmoid 函数中去。将值调整到 0~1 之间来决定要更新哪些信息。0 表示不重要，1 表示重要。
2. 将前一层隐藏状态的信息和当前输入的信息传递到 tanh 函数中去，创造一个新的侯选值向量。最后将 sigmoid 的输出值与 tanh 的输出值相乘，sigmoid 的输出值将决定 tanh 的输出值中哪些信息是重要且需要保留下来的。
输出门：

功能：用来确定下一个隐藏状态的值。

步骤：
1. 将前一个隐藏状态和当前输入传递到 sigmoid 函数中，然后将新得到的细胞状态传递给 tanh 函数。
2. 将 tanh 的输出与 sigmoid 的输出相乘，以确定隐藏状态应携带的信息。再将隐藏状态作为当前细胞的输出，把新的细胞状态和新的隐藏状态传递到下一个时间步长中去。
就是通过引入门控机制和细胞状态方法，使得LSTM网络能够只保留相关信息来进行预测，并忘记不相关的数据。

三、应用领域

LSTM网络在深度学习领域有着广泛的应用，以下列举几个常见的应用场景：

语言模型与文本生成：LSTM可以对文本序列进行建模，捕捉文本中的上下文信息，从而提高处理文本任务的能力。例如，在机器翻译、情感分析等领域中，LSTM都取得了显著的效果。
时间序列预测：LSTM网络可以对历史数据进行学习，预测未来的时序数据。例如，在股票价格预测、天气预测等任务中，LSTM都表现出了强大的性能。
语音识别：LSTM网络可以对音频序列进行建模，捕捉语音信号中的时间依赖关系。通过有效地处理连续的音频输入，LSTM可以提高语音识别的准确性。

总结

本篇介绍了：

LSTM网络的作用：解决标准RNN在处理长序列数据时容易出现的梯度消失和梯度爆炸问题。
LSTM网络的核心是记忆单元，记忆单元由一个细胞状态和三个门控向量组成，这三个门控向量分别是遗忘门、输入门和输出门。
LSTM网络通过引入门控机制和细胞状态等创新设计，只保留相关信息来进行预测，解决了传统RNN在处理长序列数据和长期依赖问题上的困难。

原文地址：https://blog.csdn.net/m0_74896766/article/details/142832640

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：指针 + 数组较为复杂凌乱的【笔试题】
下一篇：ultralytics yolo segmentation 分割示例：加载官方segmentation 模型进行推理

QML tableView设置role为index的问题
好了，开始运行，表格显示无问题。但点击时，奇怪的现象发生了，点击第一行时无选中效果，点击第二行时第一行选中，点击第三行时第二行选中，依此类推。并且通过tableview的currentRow 获取到的
阅读更多2024-10-13
XMOJ3065 旅游线路
10分钟没啥思路就去看题解了，结果发现很蠢。
阅读更多2024-10-13
【实时计算 Flink】检查点和快照超时的诊断方法与调优策略
本文为您介绍检查点和快照超时的诊断方法和调优策略。Flink的核心机制依赖于Chandy-Lamport算法，以确保数据的一致性和可靠性。：此阶段的关键在于Barrier的对齐和同步资源的维护。Bar
阅读更多2024-10-13
《RabbitMQ篇》交换机基本概览
接受RabbitMQ中的交换机的概念及其分类
阅读更多2024-10-13
mysql学习教程，从入门到精通，SQL 约束（Constraints）（41）
在数据库设计中，约束（Constraints）用于确保数据的准确性和完整性。它们通过限制可以插入到数据库表中的数据类型来防止无效数据。SQL 中有几种常见的约束类型，包括主键约束（Primary Ke
阅读更多2024-10-13
云直播的基本概念
用户需要在域名服务商处，配置一条 CNAME 记录，记录生效后，域名解析的工作就正式转向腾讯云云直播，该域名所有的请求都将转向腾讯云直播的边缘节点。指推流过程中，直播触发事件通知，腾讯云按照配置模板信
阅读更多2024-10-13
java生成离职证明,各种申请模板并上传pdf
4.数据流上传到sftp服务器上就ok了。3.将html模板,转为数据流。
阅读更多2024-10-13
本地windows文件上传到远程阿里云windows server方法
将本地windows系统下开发的软件快速上传到远程阿里云windows server的方法
阅读更多2024-10-13
基于落差法实现自动测流的java方法
关注到文章中求解系数部分有2种假设如下：1.落差系数使用试错法得出 2.落差系数使用回归曲线进行拟合。某天下午在上班摸鱼的小邓突然接到新任务，如下参考论文进行java的编码实现。z+c 和落差系数B
阅读更多2024-10-13
java 基础
1. equals vs hashCode在 Java 中，如果你重写了 equals 方法，就必须重写 hashCode 方法。这是因为这两个方法在某些数据结构（如 HashMap、HashSet
阅读更多2024-10-13