LSTM：解决梯度消失与长期依赖问题

🕗 发布于 2024-11-05 10:13 pytorch 人工智能 python

LSTM（长短期记忆网络）是一种递归神经网络，设计用来解决梯度消失和长期依赖问题。

梯度消失：在反向传播过程中，由于链式法则，较早层的梯度小于1，连乘后数次迭代会导致梯度趋于0，使得网络很难学习早期信息。

长期依赖问题：传统神经网络在处理长序列数据时，梯度更新往往受限于短期依赖，难以有效学习长期依赖关系。

LSTM通过增加一个“遗忘门”、“输入门”和“输出门”来解决这些问题。它使用一个称为“单元状态”的隐藏状态，该状态可以记住长期信息。

以下是一个简单的LSTM单元的Python代码示例，使用PyTorch框架：

import torch

import torch.nn as nn

class LSTMCell(nn.Module):

def __init__(self, input_size, hidden_size):

super(LSTMCell, self).__init__()

self.hidden_size = hidden_size

self.input2hidden = nn.Linear(input_size + hidden_size, hidden_size)

self.input2cell = nn.Linear(input_size, hidden_size)

self.hidden2cell = nn.Linear(hidden_size, hidden_size)

def forward(self, input, hidden):

h, c = hidden

combined = torch.cat((input, h), dim=1) # concatenate along dimension 1 (channel dimension)

# Input Gate

i = torch.sigmoid(self.input2hidden(combined))

# Forget Gate

f = torch.sigmoid(self.input2cell(input) + self.hidden2cell(h))

# New Cell State

new_c = f * c + i * torch.tanh(self.input2cell(combined))

# Output Gate

o = torch.sigmoid(self.input2hidden(combined))

# New Hidden State

new_h = o * torch.tanh(new_c)

return new_h, (new_h, new_c)

# Example usage

input_size = 10

hidden_size = 20

lstm_cell = LSTMCell(input_size, hidden_size)

input = torch.randn(5, 3, input_size) # seq_len = 5, batch_size = 3

h0 = torch.randn(3, hidden_size)

c0 = torch.randn(3, hidden_size)

hidden_state = (h0, c0)

for input_step in input:

hidden_state = lstm_cell(input_step, hidden_state)

# Output is the new hidden state

print(hidden_state[0])

这段代码定义了一个基本的LSTM单元，它接受一个输入序列和一个初始隐藏状态。然后，它遍历输入序列，逐个步骤地计算新的隐藏状态。这个例子中没有使用PyTorch提供的nn.LSTMCell模块，而是手动实现了LSTM单元的基本组成部分，以便更好地理解LSTM的工作原理。

原文地址：https://blog.csdn.net/Rverdoser/article/details/143435681

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：PMP考试教材再改版，对考生有哪些影响?
下一篇：Spring Boot——配置文件

【go从零单排】上下文（context）
在 Go 语言中，上下文（context）是一个重要的概念，主要用于管理请求的生命周期、传递取消信号、超时控制以及传递请求范围内的值。上下文通常与并发编程相关，尤其是在处理 HTTP 请求和其他 I/
阅读更多2024-11-15
Ubuntu 20.04 配置开发环境(持续更新)
搜狗输入法不能显示中文。
阅读更多2024-11-15
在ubuntu上安装ubuntu22.04并ros2 humble版本的docker容器记录
"registry-mirrors" : ["https://你的.mirror.swr.myhuaweicloud.com"],4、已经打包了ubuntu22
阅读更多2024-11-15
如何在 Ubuntu 22.04 上安装 ownCloud
ownCloud 是一个开源的个人云存储平台，它允许用户在本地服务器上存储和同步文件，提供了一个类似于 Dropbox 或 Google Drive 的服务，但是更加注重隐私和数据控制。文件存储：用户
阅读更多2024-11-15
idea 删除本地分支后，弹窗 delete tracked brank
在 IntelliJ IDEA 中，删除本地分支后弹出 “Delete tracked branch” 的提示，这表示删除的是一个跟踪分支（tracked branch）。具体来说，当前删除的本地分
阅读更多2024-11-15
「JVM详解」
JVM：全称 Java Virtual Machine，即 Java 虚拟机，一种规范，本身是一个虚拟计算机，直接和操作系统进行交互，与硬件不直接交互，而操作系统可以帮我们完成和硬件进行交互的工作
阅读更多2024-11-15
WPF中Prism框架的简单使用
自动匹配导入4.写Login.XAML代码和LoginViewModel代码LoginViewModel如下：5.创建其他的UserControl 并学好MainWindow.XAML和MainWin
阅读更多2024-11-15
Linux——GPIO输入输出裸机实验
在程序启动时，BSS段会被清零，并且其大小会被计算到程序的总内存占用中，尽管它在磁盘上的表示可能非常小或甚至没有。在程序启动时，BSS段会被清零，并且其大小会被计算到程序的总内存占用中，尽管它在磁盘上
阅读更多2024-11-15
planRAG运行记录
运行planRAG过程记录
阅读更多2024-11-15
vue面试题8|[2024-11-14]
vue面试题
阅读更多2024-11-15

LSTM：解决梯度消失与长期依赖问题

相关文章