神经网络复习--循环神经网络

🕗 发布于 2024-05-15 23:29 神经网络 rnn 人工智能

文章目录

RNN
LSTM神经网络
GAN神经网络

RNN

有些任务人工神经网络，CNN解决不了，自然语言处理中，输入和输出之间不独立，而传统神经网络中，输入和输出都是相互独立的，因此需要一种神经网络让输出和之前的输入是相关的

在这里插入图片描述

RNN是一类拓展的人工神经网络，它是为了对序列数据进行建模而产生的。
针对现象：序列数据。例如文本，是字母和词汇的序列；语音，是音节的序列；视频，是图像的序列；气象观测数据，股票交易数据等等

核心思想：样本间存在顺序关系，每个样本和它之前的样本存在关联。通过神经网络在时序上的展开，我们能够找到样本之间的序列相关性

在这里插入图片描述

5分钟搞懂RNN，3D动画

$S_t = f(W_{in}X + W_s S_{t-1} + b)$

RNN本质与BP很像，就是加上了时序演化。定义权重U, V, W.
$s_t = tanh(Ux_t + Ws_{t - 1}) \\y_t = softmax(Vs_t)$
损失函数交叉熵损失函数

缺点：虽然解决了信息依赖的问题，但是他会丧失很久以前的信息

LSTM神经网络

增加了长短期记忆功能
LSTM是一种循环神经网络（RNN）的变体，它在处理长序列数据时比标准RNN更有效。LSTM的全称为长短时记忆网络，它的设计目的是为了解决标准RNN中梯度消失问题，同时允许网络记住长期依赖关系。

LSTM的核心思想是引入了一种称为“门”的机制，这些门可以控制信息的流动。LSTM包含三个门：输入门、遗忘门和输出门。这些门可以根据输入数据和先前的状态来控制信息的流动，从而有效地处理长序列数据。
在这里插入图片描述
遗忘门控制着旧信息的流出。它包含一个sigmoid激活函数和一个点乘运算。sigmoid决定哪些信息需要保留，哪些信息需要丢弃。点乘运算可以将旧的状态与sigmoid函数输出相乘，从而产生一个新的向量，表示需要保留的旧信息
$f_t = sigmoid(W_f[h_{t-1}, x_t] + b_f) \\c'_{t-1} = c_{t - 1}\odot f_t \\ \odot 表示两个向量按位相乘$
在这里插入图片描述
输入门控制新信息的流入。
$i_t = sigmoid(W_i[h_{t-1}, X_t] + b_i \\ C_t = tanh(W_c[h_{t - 1}， X_t] + b_c)$

输出门控制中新的状态的输出。

相比于RNN只有一个传输状态，LSTM有两个传输状态，一个cell state，和一个hidden state

在这里插入图片描述

GAN神经网络

由两个同时训练的模型组成：一个训练模型(Generator)以伪造数据，另一个训练模型(Discriminator)从真实示例中识别假数据

在这里插入图片描述

GAN的训练过程如下：

训练鉴别器
1. 从训练集中随机抽取真实样本x
2. 获取一个新的随机噪声向量，并使用生成器生成一个伪造实例 $x_f$
3. 使用鉴别器x和 $x_f$ 进行分类
4. 计算分类误差并方向传播总误差，以更新鉴别器的可训练参数，将分类误差降至最低
训练生成器
1. 获得一个新的随机噪声向量z，并使用生成器生成一个伪造示例 $x_f$
2. 使用鉴别器对 $x_f$ 进行分类
3. 计算分类误差并反向传播该误差，以更新生成器的可训练参数，使鉴别器误差最大化
结束
平衡状态：
1. 生成器生成的伪造示例与训练数据集中的真实示例没有区别
2. 鉴别器只能依靠随机猜测来确定一个特定示例是真实还是伪造的（以1:1的比例猜测一个示例是真实的）

在这里插入图片描述

生成器的损失函数正好相反：
$J^{G} = E_{x \_ pdata}[\log{D(x)}] + E_{z\_pz(z)}[log(1 - D(G(z)))]$

因此总的目标函数为：
$\min \limits_G - \max \limits_D \{ E_{x\_p_{data} [\log{D(x)}] + E_{z \_ p_z} [\log{1 - D[G(z)]}] }\}$
生成器最小，鉴别器最大

原文地址：https://blog.csdn.net/m0_64372178/article/details/138090436

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

Vue使用代理方式解决跨域问题
如果 Vue 前端应用请求后端 API 服务器，出现跨域问题（CORS），这个问题可以通过 vue.config.js 中的 devServer.proxy 选项来配置。通过使用代理方式解决跨域问题。
阅读更多2024-09-21
[网络层]-IP协议相关特性
不同的子网就是把网络号相同的主机放在一起, 如果在子网中新增一台主机, 则这台主机的网络号和这个子网的网络号一致,但是主机号不能和其他主机的主机号重复,通过合理的设置主机号和网络号,就可以保证在相互连
阅读更多2024-09-21
MySQL篇（存储引擎 - InnoDB存储引擎架构）（持续更新迭代）
MySQL5.5 版本开始，默认使用InnoDB存储引擎，它擅长事务处理，具有崩溃恢复特性，在日常开发中使用非常广泛。下面是InnoDB架构图，左侧为内存结构，右侧为磁盘结构。
阅读更多2024-09-21
ElasticSearch-2-核心语法集群高可用实战-Week2
这里多个文档是指，批量操作多个文档，搜索查询文档将在之后的章节讲解批量获取文档数据是通过_mget的API来实现的。
阅读更多2024-09-21
C#自定义曲线绘图面板
1、显示面板绘制。2、拖动面板，X轴、Y轴都可以拖动。3、显示面板缩放，放大或者缩小。4、鼠标在面板中对应的XY轴数值。5、自动生成的数据数组，曲线显示。6、鼠标是否在曲线上检测。
阅读更多2024-09-21
Web开发之Thymeleaf引擎
模板引擎就是一种用于将动态数据与HTML模板结合，生成最终用户界面的工具，它可以帮助开发者以可维护和结构化的方式创建动态Web页面，模板引擎通常支持数据的动态插入、条件渲染、循环等功能Thymele
阅读更多2024-09-21
【C++】探秘二叉搜索树
二叉搜索树的底层实现
阅读更多2024-09-21
【Linux基础IO】深入Linux文件描述符与重定向：解锁高效IO操作的秘密
在Linux操作系统的广阔世界中，文件描述符（File Descriptor，简称fd）和重定向是理解并高效利用Linux IO（输入/输出）机制的关键基石。它们不仅是系统编程中不可或缺的概念，也是日
阅读更多2024-09-21
Css_动态渐变圆圈旋转效果
【代码】Css_渐变圆圈动态旋转效果。
阅读更多2024-09-21
其他比较条件
NULL条件，包括IS NULL条件和IS NOT NULL条件。空值的意思是难以获得的、未指定的、未知的或者不适用的。示例：查询employees表，找出薪水是5000,6000,8000的雇员ID
阅读更多2024-09-21

神经网络复习--循环神经网络

文章目录

RNN

LSTM神经网络

GAN神经网络

相关文章