从0开始深度学习（31）——循环神经网络

🕗 发布于 2024-11-26 21:41 python 人工智能 自然语言处理 深度学习

前面介绍了 $n$ 元语法模型，里面有一个叫隐状态，也被叫做隐藏变量，循环神经网络（recurrent neural networks，RNNs）是具有隐状态的神经网络。

1 无隐状态的神经网络

以单隐藏层的多层感知机为例，设隐藏层的激活函数为 $\phi$ ，所以隐藏层的输出是：
$\mathbf{H} = \phi(\mathbf{X} \mathbf{W}_{xh} + \mathbf{b}_h).$
然后把隐藏变量输入到输出层，则输出层的输出是：
$\mathbf{O} = \mathbf{H} \mathbf{W}_{hq} + \mathbf{b}_q,$

2 有隐状态的循环神经网络

我们用 $\mathbf{H}_t \in \mathbb{R}^{n \times h}$ 表示时间步 $t$ 的隐藏变量，与多层感知机不同的是，我们在这里保存了前一个时间步的隐藏变量 $\mathbf{H}_{t-1}$ ，并引入了一个新的权重参数 $\mathbf{W}_{hh} \in \mathbb{R}^{h \times h}$ 描述如何在当前时间步中使用前一个时间步的隐藏变量。

所以，当前时间步隐藏变量，由当前时间步的输入 与前一个时间步的隐藏变量一起计算得出：
$\mathbf{H}_t = \phi(\mathbf{X}_t \mathbf{W}_{xh} + \mathbf{H}_{t-1} \mathbf{W}_{hh} + \mathbf{b}_h).$
与无状态的神经网络相比，多了一个 $\mathbf{H}_{t-1} \mathbf{W}_{hh}$ ，这些变量捕获并保留了序列直到其当前时间步的历史信息，就如当前时间步下神经网络的状态或记忆，因此这样的隐藏变量被称为隐状态（hidden state）。

由于在当前时间步中，隐状态使用的定义与前一个时间步中使用的定义相同，因此计算是循环的（recurrent）。于是基于循环计算的隐状态神经网络被命名为循环神经网络。在循环神经网络中执行隐藏变量计算的层称为循环层。

下图展示了循环神经网络在三个相邻时间步的计算逻辑。在任意时间步 $t$ ，隐状态的计算可以被视为：

拼接当前时间步 $t$ 输入 $\mathbf{X}_t$ ，和前一时间步 $t - 1$ 的隐状态 $\mathbf{H}_{t-1}$
将拼接的结果送入带有激活函数 $\phi$ 的全连接层。全连接层的输出是当前时间步 $t$ 的隐状态 $\mathbf{H}_t$

在这里插入图片描述

3 基于循环神经网络的字符级语言模型

上一节提到，我们的目标是根据过去的和当前的词元预测下一个词元，因此我们将原始序列移位一个词元作为标签。 Bengio等人首先提出使用神经网络进行语言建模，下图演示了如何通过基于字符级语言建模的循环神经网络，使用当前的和先前的字符预测下一个字符。设小批量大小为1，批量中的文本序列为“machine”：
在这里插入图片描述

在训练过程中，我们对每个时间步的输出层的输出进行softmax操作，然后利用交叉熵损失计算模型输出和标签之间的误差。

4 困惑度

如何度量语言模型的质量？由于历史原因，自然语言处理的科学家更喜欢使用一个叫做困惑度（perplexity） 的量，也就是一个序列中所有的 $n$ 个词元的交叉熵损失的平均值的负指数：
$\exp\left(-\frac{1}{n} \sum_{t=1}^n \log P(x_t \mid x_{t-1}, \ldots, x_1)\right).$
困惑度的最好的理解是“下一个词元的实际选择数的调和平均数”:

在最好的情况下，模型总是完美地估计标签词元的概率为1。在这种情况下，模型的困惑度为1。
在最坏的情况下，模型总是预测标签词元的概率为0。在这种情况下，困惑度是正无穷大。
在基线上，该模型的预测是词表的所有可用词元上的均匀分布。在这种情况下，困惑度等于词表中唯一词元的数量。事实上，如果我们在没有任何压缩的情况下存储序列，这将是我们能做的最好的编码方式。因此，这种方式提供了一个重要的上限，而任何实际模型都必须超越这个上限。

原文地址：https://blog.csdn.net/m0_53115174/article/details/144038129

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：11.25 深度学习-pytorch模型组件
下一篇：CTF之密码学（培根密码）

Web 学习笔记 - 网络安全
作为前端开发者，了解一点 Web 安全方面的基本知识是有很必要的，未必就要深入理解。本文主要介绍常见的网络攻击类型，不作深入探讨。CSRF（Cross-site request forgery跨站请
阅读更多2024-11-26
14 —— Webpack解析别名
— 在webpack.config.js中配置解析别名@来代表src绝对路径。这么使用相对路径不安全。
阅读更多2024-11-26
【eNSP】动态路由协议RIP和OSPF
动态路由RIP（Routing Information Protocol，路由信息协议）和OSPF（Open Shortest Path First，开放式最短路径优先）是两种常见的动态路由协议，它们
阅读更多2024-11-26
【多线程-第一天-多线程的技术方案-pthread演示 Objective-C语言】
【多线程-第一天-多线程的技术方案-pthread演示 Objective-C语言】
阅读更多2024-11-26
如何定制谷歌浏览器的外观主题
无论是更改背景颜色、开启文本光标模式还是解决上传文件失败的问题，这些定制选项都能帮助你打造更加个性化的浏览体验。随着技术的不断发展，我们相信谷歌浏览器将会提供更多丰富和实用的定制选项，以满足用户日益增
阅读更多2024-11-26
即时通讯平台-音视频即时通讯平台就选WorkPlus
在现代社会，企业和组织对沟通的需求日益增加，尤其是在瞬息万变的商业环境中，音视频即时通讯已成为沟通的主流形式。WorkPlus作为一款专注于音视频即时通讯的平台，凭借其强大的功能和出色的用户体验，成为
阅读更多2024-11-26
vue中el-table合并单元格
1.在el-table中添加 :span-method=“handdelSpanMethod”2.handdelSpanMethod方法。
阅读更多2024-11-26
2022年计算机网络408考研真题解析
题目中提到了下发二字，如果这题不会的话，可以直接蒙个南向接口，因为上北下南。。。SDN控制器有控制层面和数据层面上下两个层面，通过北向API控制网络控制应用层序，通过南向API控制分组交换机。综上所述
阅读更多2024-11-26
滑动窗口最大值(java)
给你一个整数数组nums，有一个大小为k的滑动窗口从数组的最左侧移动到数组的最右侧。你只可以看到在滑动窗口内的k个数字。滑动窗口每次只向右移动一位。返回滑动窗口中的最大值。滑动窗口的位置
阅读更多2024-11-26
（原创）Android Studio新老界面UI切换及老版本下载地址
这两天下载了一个新版的Android Studio，发现整个界面都发生了很大改动：但是对于一些急着开发的小伙伴来说，没有时间去适应，那么怎么办呢？只能先下回老的，或者看有没有版本支持新老ui界面的切换
阅读更多2024-11-26

从0开始深度学习（31）——循环神经网络

1 无隐状态的神经网络

2 有隐状态的循环神经网络

3 基于循环神经网络的字符级语言模型

4 困惑度

相关文章