LSTM--详解

🕗 发布于 2024-10-08 13:13 深度学习 lstm

LSTM

LSTM（Long Short-Term Memory，长短期记忆网络）是一种特殊的递归神经网络（RNN），最早由Hochreiter和Schmidhuber于1997年提出，旨在解决标准RNN在处理长序列时容易出现的梯度消失和梯度爆炸问题。LSTM通过引入“记忆单元”（Memory Cell）来保持长期依赖信息，并通过控制门结构来管理信息的流动和状态的更新。

LSTM的关键思想是，除了递归地更新隐藏状态外，LSTM通过引入输入门、遗忘门、输出门这三种门机制，来决定信息在各个时间步的流入、保留和输出，从而能够有效捕捉时间序列中的长依赖性特征。

LSTM的基本结构

LSTM的核心单元可以分为以下几个主要部分：

遗忘门（Forget Gate）：决定应该遗忘多少前一时间步的记忆。输入当前输入和上一时间步的隐藏状态，通过一个Sigmoid函数产生0到1之间的值，决定哪些信息需要丢弃。
输入门（Input Gate）：决定当前时间步新的信息存入多少到记忆单元。分为两部分：第一部分通过Sigmoid函数确定哪些值更新，第二部分通过Tanh函数产生候选记忆。
记忆单元（Cell State）更新：结合遗忘门和输入门，更新当前的记忆单元。
输出门（Output Gate）：最终决定输出的隐藏状态，这部分基于当前的记忆单元和输入门的结果。

LSTM的经典代码

基本的LSTM网络结构

下面是使用Python和Keras框架实现LSTM的经典代码。

# 导入必要的库
import numpy as np
from keras.models import Sequential
from keras.layers import LSTM, Dense
from keras.optimizers import Adam

# 创建示例数据
# 假设输入的序列是三维数组：[样本数量, 时间步, 特征维度]
data = np.random.random((1000, 10, 50))  # 1000个样本，每个样本有10个时间步，每个时间步50维输入
labels = np.random.randint(2, size=(1000, 1))  # 二分类标签

# 构建LSTM模型
model = Sequential()
model.add(LSTM(64, input_shape=(10, 50)))  # 64个LSTM单元
model.add(Dense(1, activation='sigmoid'))  # 输出层，使用sigmoid函数

# 编译模型
model.compile(loss='binary_crossentropy',
              optimizer=Adam(),
              metrics=['accuracy'])

# 训练模型
model.fit(data, labels, epochs=10, batch_size=32)

LSTM文本生成的示例代码

以下是一个使用LSTM进行文本生成的简单示例。这里将使用Keras构建一个文本生成模型。

import numpy as np
from keras.preprocessing.text import Tokenizer
from keras.preprocessing.sequence import pad_sequences
from keras.models import Sequential
from keras.layers import LSTM, Embedding, Dense, Dropout
from keras.utils import to_categorical

# 示例文本数据
data = """
Long short-term memory (LSTM) is an artificial recurrent neural network (RNN) architecture 
used in the field of deep learning. Unlike standard feedforward neural networks, LSTM has feedback connections. 
It can not only process single data points (such as images), but also entire sequences of data (such as speech or video).
"""

# 文本预处理
tokenizer = Tokenizer()
tokenizer.fit_on_texts([data])
sequences = tokenizer.texts_to_sequences([data])[0]
vocab_size = len(tokenizer.word_index) + 1

# 创建输入输出序列
sequence_length = 5
X = []
y = []
for i in range(sequence_length, len(sequences)):
    X.append(sequences[i-sequence_length:i])
    y.append(sequences[i])

X = np.array(X)
y = to_categorical(y, num_classes=vocab_size)

# 构建模型
model = Sequential()
model.add(Embedding(input_dim=vocab_size, output_dim=50, input_length=sequence_length))
model.add(LSTM(100))
model.add(Dense(vocab_size, activation='softmax'))

# 编译模型
model.compile(loss='categorical_crossentropy', optimizer='adam')

# 训练模型
model.fit(X, y, epochs=100, verbose=2)

# 文本生成函数
def generate_text(seed_text, next_words, max_sequence_len):
    for _ in range(next_words):
        token_list = tokenizer.texts_to_sequences([seed_text])[0]
        token_list = pad_sequences([token_list], maxlen=max_sequence_len-1, padding='pre')
        predicted = model.predict(token_list, verbose=0)
        predicted_word_index = np.argmax(predicted, axis=-1)
        output_word = ""
        for word, index in tokenizer.word_index.items():
            if index == predicted_word_index:
                output_word = word
                break
        seed_text += " " + output_word
    return seed_text

# 测试生成文本
seed_text = "LSTM networks are"
generated_text = generate_text(seed_text, next_words=10, max_sequence_len=sequence_length)
print(generated_text)

代码解释：

文本预处理：
- 首先对文本进行token化，将其转换为数值序列，表示每个单词。
- 然后根据输入长度，将序列划分为输入 XXX 和输出 yyy 对。
模型结构：
- 使用一个Embedding层将输入序列中的单词映射到向量空间。
- 接着通过LSTM层处理这些嵌入向量，最终通过全连接层预测下一个单词。
文本生成：
- 使用训练好的模型，给定一个种子文本，模型根据上下文预测后续单词。

总结

LSTM作为递归神经网络的一种，专门用于处理长依赖序列问题，因其在许多任务中（如自然语言处理、时间序列预测等）表现优异，成为了深度学习领域的重要模型之一。

原文地址：https://blog.csdn.net/GDHBFTGGG/article/details/142735308

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：SpringBoot企业级开发（SpringSecurity安全控制+pringBatch批处理+异步消息+系统集成SpringIntegration）
下一篇：进入猛增模式后，小米股价还剩下多少上涨空间？

erlang学习:Linux命令学习11
同样.sh文件中我也放的是echo，估计也是将echo的内容放入了信箱当中，因此没有看到输出结果，我进行了修改之后就能够正常看到定时器执行任务了。crontab -u -e：以指定用户的身份编辑定时
阅读更多2024-10-09
如何通过jupyter调用服务器端的GPU资源
在本地在网页上编写、调试python代码，而实际python代码是通过远程服务器编译、运行的。这种模式特别适合做试验，不断测试代码的功能等。（VScode可以远程访问，但vscode不能像jupyte
阅读更多2024-10-09
Jenkins新安装的插件ThinBackup，如何恢复之前的备份
本文梳理了一下如何恢复之前的备份，你只要告诉插件，你的备份目录在哪即可。同时，这也告诫我们，一定要做好及时的备份。最好是有一定的指数级策略，重要的数据要备份几个月，甚至一年。
阅读更多2024-10-09
人才画像的重要性，如何打造精准人才画像？
金现代人才画像系统基于企业发展对人才的要求，以岗位胜任力模型为基础定义人才标准，通过采集包括基本情况、评估数据、绩效数据等多维度的员工信息对指定员工进行人才对标、盘点，结合诊断结果对存在短板的员工进行
阅读更多2024-10-09
使用 Python 实现图形学的辐射度算法
辐射度算法的核心思想是将场景中的光能视为一种分布在物体表面的量，利用这一量来计算各个表面点的光照。辐射度是描述表面发光或反射光能的量度，它包括了直接光照和间接光照的贡献。场景建模：构建一个包含所有光源
阅读更多2024-10-09
卸载各种服务的详尽方法
2. 如果是通过源码编译安装的，执行以下步骤： - 停止 Nginx 服务：`sudo /usr/local/nginx/sbin/nginx -s stop` - 进入 Nginx 安装目录，删除相
阅读更多2024-10-09
新书速览|你好，C++
著有《我的第一本C++书》和《C语言程序伴侣》。，更新了所有代码和讲解，并增加了新标准引入的特性，如智能指针、std::thread等，使读者能够掌握最新的C++知识。，以一个工资程序的不断优化和完善
阅读更多2024-10-09
W外链平台有什么优势？
综上所述，W外链在短网址服务中属于功能较为全面且先进的服务之一，它不仅关注基础的网址缩短，还致力于通过技术创新和增值服务来满足用户和企业更复杂的需求。不过，具体使用效果还需根据实际体验和用户评价来判断
阅读更多2024-10-09
Python | Leetcode Python题解之第458题可怜的小猪
Python | Leetcode Python题解之第458题可怜的小猪
阅读更多2024-10-09
解决触摸屏鼠标乱动的问题：查看触摸版和触摸屏的代码并关闭
从你提供的输出来看，你的系统中有触摸板和触摸屏设备。以下是如何禁用它们的步骤。
阅读更多2024-10-09