【NLP】daydayup 循环神经网络基本结构，pytorch实现

🕗 发布于 2024-09-26 02:28 自然语言处理 rnn pytorch

RNN 循环神经网络

循环神经网络（Recurrent Neural Network，RNN）是一种神经网络结构，专门用于处理序列数据。

RNN结构原理

在这里插入图片描述

RNN架构中，网络通过循环把信息从一个处理步骤传递到下一个，这个循环结构被称为隐藏层状态或者隐藏状态。可以捕捉并储存已经出处理的序列元素信息。

这个过程可以简化为
$s_t=f(\mathbf{U}·x_t+\mathbf{W}·s_{t-1})$
U是输入到隐藏的权重矩阵

W是隐藏到隐藏的权重

在这里插入图片描述

输出层 ${O}_{t}$ = g(V ${s}_{t}$ )

V是隐藏层到输出层的矩阵

在这里插入图片描述

import numpy as np
import torch
import torch.nn as nn

# 假设输入3个时间步
x = np.random.rand(3,2) 
# 一个样本的输入，如文本中的一句话，一个样本中的3个特征，一句话有3个词，每个特征的维度是2，词向量的维度是2

# 定义rnn参数
input_size = 2
hidden_size = 3
output_size = 4

# 初始化权重和偏置
W_xh = np.random.rand(input_size,hidden_size) # 输入到隐藏
W_hh = np.random.rand(hidden_size,hidden_size) # 隐藏到隐藏
W_hy = np.random.rand(hidden_size,output_size) # 隐藏到输出

bh = np.zeros(hidden_size) # 隐藏层偏置
by = np.zeros(output_size) # 输出层偏置

# 激活函数
def tanh(x):
    return np.tanh(x)

# 初始化隐藏状态
H_prev = np.zeros(hidden_size)


x1 = x[0] # 得到第一个输入特征 文本序列中的第一个词
H1 = tanh(np.dot(x1,W_xh)+H_prev+bh)
print('隐藏1：',H1)
O1 = np.dot(H1,W_hy)+by
print('输出1：',O1)

x2 = x[1]
H2 = tanh(np.dot(x2,W_xh)+np.dot(H1,W_hh)+bh)
print('隐藏2：',H2)
O2 = np.dot(H2,W_hy)+by
print('输出2：',O2)

x3 = x[1]
H3 = tanh(np.dot(x3,W_xh)+np.dot(H2,W_hh)+bh)
print('隐藏3：',H3)
O3 = np.dot(H3,W_hy)+by
print('输出3：',O2)

RNNcell

PyTorch循环神经网络

import torch
import torch.nn as nn

x = torch.randn(10,6,5) # 10批次大小 6词数 5向量维度
# 一次输入10句话，一句话中有6个词（特征），词向量维度是5（特征维度）

class RNN(nn.Module):
    def __init__(self,input_size,hidden_size,batch_first=True):
        # input_size 输入的词向量维度，特征维度
        # hidden_size 隐藏状态的张量维度
        # batch_first 第一维度是否是batch，如果是，需要维度转换，以符合RNNcell的输入
        super().__init__()
        self.rnn_cell = nn.RNNCell(input_size,hidden_size)
        self.hidden_size = hidden_size
        self.batch_first = batch_first

    def __initialize_hidden(self,batch_size):
        # 初始化隐藏状态  第一个时间步没有隐藏的输入，需要初始化
        return torch.zeros((batch_size,self.hidden_size))

    def forward(self,x,init_hidden=None):

        # 得到数据的各个维度
        if self.batch_first:  # 维度转换 以符合cell输入
            bach_size,seq_size,input_size = x.size()

            x = x.permute(1,0,2)
        else:
            seq_size,bach_size,input_size = x.size()

        hiddens = [] # 储存隐藏状态

        if init_hidden is None: # 如果是第一个输入
            init_hidden = self.__initialize_hidden(bach_size)
            init_hidden = init_hidden.to(x.device) # 同步设备

        hidden_t = init_hidden

        for t in range(seq_size):

            hidden_t = self.rnn_cell(x[t],hidden_t)

            hiddens.append(hidden_t)

        hiddens = torch.stack(hiddens) # 堆叠所有时间步隐藏输出，合并为一个张量

        if self.batch_first:
            hiddens = hiddens.permute(1,0,2)

        print(hiddens)

        return hiddens

model = RNN(5,8) # imput_size 词向量的维度 hidden_size 输出的维度  隐藏状态的张量维度
outputs = model(x)
print(outputs.shape) # torch.Size([10, 6, 8])

**这里并没有进行out的输出，只是获得了隐藏状态，在实际的需求中，需要增加其他的结构如线性层对隐藏状态进行操作 **

RNN

基于pytorch实现

import torch
import torch.nn as nn

# 超参数设置

batch_size,seq_size,input_size = 10,6,5 # 批次 句子长度 词向量维度

hidden_size = 3  # 隐藏状态的张量维度

# 数据
x = torch.rand(batch_size,seq_size,input_size)

# 初始化隐藏状态
h_prev = torch.zeros(batch_size,hidden_size)

# 创建RNN

rnn = nn.RNN(input_size, hidden_size,batch_first=True) # batch_first=True是否转化

out, hide= rnn(x,h_prev.unsqueeze(0))  # 返回值 第一个值为输出  第二个值是状态信息

print(out.shape) # torch.Size([10, 6, 3])
print(hide.shape) # torch.Size([1, 10, 3])

biRNN双向RNN

双向RNN，使得模型能够学习到序列中某一点前后的上下文信息

在这里插入图片描述

import torch
import torch.nn as nn

# 超参数设置

batch_size,seq_size,input_size = 10,6,5 # 批次 句子长度 词向量维度

hidden_size = 3  # 隐藏状态的张量维度

# 数据
x = torch.rand(batch_size,seq_size,input_size)

# 初始化隐藏状态
h_prev = torch.zeros(batch_size,hidden_size)

# 创建RNN

rnn = nn.RNN(input_size, hidden_size,batch_first=True,bidirectional=True) # batch_first=True是否转化

out, hide= rnn(x)  # 返回值 第一个值为输出  第二个值是状态信息

print(out.shape) # torch.Size([10, 6, 6])  这里直接合并了双向的隐藏状态
print(hide.shape) # torch.Size([2, 10, 3]) 输出的是正向和反向的隐藏状态

原文地址：https://blog.csdn.net/m0_73658021/article/details/142530726

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：.net core集成Minio，构建一个文件存储的基础设施
下一篇：docker容器安装nginx

ubuntu设置自启动
3. 在 /etc/systemd/system/multi-user.target.wants 目录下创建 A.service 的软连接。1. 把要启动的程序或者脚本(比如A.sh、A1)放在 /u
阅读更多2024-11-17
Ubuntu从入门到精通（一）系统安装
本文《Ubuntu从入门到精通（一）》主要介绍Ubuntu系统的安装相关知识。首先，用户需根据需求选择合适的Ubuntu镜像版本。接着，详细阐述了如何下载并安装系统镜像以及必要的恢复工具，确保安装过程
阅读更多2024-11-17
前端开发迈向全栈之路：规划与技能
此外，前端开发还需与后端开发人员合作，通过 API 接口与后端服务器进行数据交互，并关注用户体验设计，优化页面加载速度，确保在不同设备和浏览器上的兼容性。同时，随着云计算和容器化技术的普及，全栈开发人
阅读更多2024-11-17
【机器学习】数学知识：欧式距离（Euclidean Distance）和曼哈顿距离（Manhattan Distance）
欧式距离和曼哈顿距离是两种常用的距离度量方法，用于衡量两点之间的相似性或差异性。它们在几何分析、数据挖掘、机器学习等领域有广泛应用。欧式距离（Euclidean Distance）是最常见的直线距离度
阅读更多2024-11-17
Python sys模块介绍
无论是处理命令行参数、管理输入输出流、添加模块搜索路径，还是获取系统信息和退出程序，sys模块都为我们提供了强大的工具。在Python中， sys模块是一个非常重要的内置模块，它提供了一系列与Pyth
阅读更多2024-11-17
unity3d————Resources同步加载
Resources动态加载资源的方法提高了资源的拓展性和灵活性。相对于拖曳操作，更加一劳永逸、方便快捷。重要知识点熟记和等API的使用方法。注意不同资源类型的加载方式和使用方式。预设体加载后需要实例化
阅读更多2024-11-17
Spring Boot应用中的文件压缩与解压技术实践
在选择压缩算法时，了解各种算法的特点和适用场景至关重要。Gzip：一种广泛使用的无损压缩算法，特别适用于网络传输，因为它能有效减小文件大小，同时保持较高的压缩速度和解压速度。Zip：另一种流行的无损压
阅读更多2024-11-17
【数据结构】快速排序——非递归实现快速排序
内存中分了几个区用于存储数据栈区比较小，堆区比较大我们在递归时是在栈区开辟空间所以当递归深度过深时会有栈溢出的风险有时在某些特定情况下我们担心会栈溢出所以采用非递归的方式就是我们自己来模拟函数在栈上递
阅读更多2024-11-17
JavaSE常用API-日期（计算两个日期时间差-高考倒计时）
JavaSE常用API，LocalDate、LocalTime/LocalDateTime/DateFormatter/Date/SimpleDateformat/Calendar
阅读更多2024-11-17
spring boot 常用参数总结
这些参数直接传递给 JVM，用于控制内存、垃圾回收等。-Xms<size>-Xmx<size>：设置JVM初始堆内存大小。例如，-Xms512m表示初始堆内存为512MB。：设
阅读更多2024-11-17

【NLP】daydayup 循环神经网络基本结构，pytorch实现

RNN 循环神经网络

RNN结构原理

RNNcell

RNN

biRNN双向RNN

相关文章