【深度学习基础】多层感知机 | 暂退法（Dropout）

🕗 发布于 2025-01-23 08:58 深度学习 人工智能 神经网络多层感知机暂退法

在这里插入图片描述

【作者主页】Francek Chen
【专栏介绍】 $⌈$ PyTorch深度学习 $⌋$ 深度学习 (DL, Deep Learning) 特指基于深层神经网络模型和方法的机器学习。它是在统计机器学习、人工神经网络等算法模型基础上，结合当代大数据和大算力的发展而发展出来的。深度学习最重要的技术特征是具有自动提取特征的能力。神经网络算法、算力和数据是开展深度学习的三要素。深度学习在计算机视觉、自然语言处理、多模态数据分析、科学探索等领域都取得了很多成果。本专栏介绍基于PyTorch的深度学习算法实现。
【GitCode】专栏资源保存在我的GitCode仓库：https://gitcode.com/Morse_Chen/PyTorch_deep_learning。

文章目录

在【深度学习基础】多层感知机 | 权重衰减中，我们介绍了通过惩罚权重的 $L_2$ 范数来正则化统计模型的经典方法。在概率角度看，我们可以通过以下论证来证明这一技术的合理性：我们已经假设了一个先验，即权重的值取自均值为0的高斯分布。更直观的是，我们希望模型深度挖掘特征，即将其权重分散到许多特征中，而不是过于依赖少数潜在的虚假关联。

一、重新审视过拟合

当面对更多的特征而样本不足时，线性模型往往会过拟合。相反，当给出更多样本而不是特征，通常线性模型不会过拟合。不幸的是，线性模型泛化的可靠性是有代价的。简单地说，线性模型没有考虑到特征之间的交互作用。对于每个特征，线性模型必须指定正的或负的权重，而忽略其他特征。

泛化性和灵活性之间的这种基本权衡被描述为偏差-方差权衡（bias-variance tradeoff）。线性模型有很高的偏差：它们只能表示一小类函数。然而，这些模型的方差很低：它们在不同的随机数据样本上可以得出相似的结果。

深度神经网络位于偏差-方差谱的另一端。与线性模型不同，神经网络并不局限于单独查看每个特征，而是学习特征之间的交互。例如，神经网络可能推断“尼日利亚”和“西联汇款”一起出现在电子邮件中表示垃圾邮件，但单独出现则不表示垃圾邮件。

即使我们有比特征多得多的样本，深度神经网络也有可能过拟合。2017年，一组研究人员通过在随机标记的图像上训练深度网络。这展示了神经网络的极大灵活性，因为人类很难将输入和随机标记的输出联系起来，但通过随机梯度下降优化的神经网络可以完美地标记训练集中的每一幅图像。想一想这意味着什么？假设标签是随机均匀分配的，并且有10个类别，那么分类器在测试数据上很难取得高于10%的精度，那么这里的泛化差距就高达90%，如此严重的过拟合。

深度网络的泛化性质令人费解，而这种泛化性质的数学基础仍然是悬而未决的研究问题。我们鼓励喜好研究理论的读者更深入地研究这个主题。本节，我们将着重对实际工具的探究，这些工具倾向于改进深层网络的泛化性。

二、扰动的稳健性

在探究泛化性之前，我们先来定义一下什么是一个“好”的预测模型？我们期待“好”的预测模型能在未知的数据上有很好的表现：经典泛化理论认为，为了缩小训练和测试性能之间的差距，应该以简单的模型为目标。简单性以较小维度的形式展现，我们在模型选择、欠拟合和过拟合讨论线性模型的单项式函数时探讨了这一点。此外，正如我们在【深度学习基础】多层感知机 | 权重衰减中讨论权重衰减（ $L_2$ 正则化）时看到的那样，参数的范数也代表了一种有用的简单性度量。

简单性的另一个角度是平滑性，即函数不应该对其输入的微小变化敏感。例如，当我们对图像进行分类时，我们预计向像素添加一些随机噪声应该是基本无影响的。1995年，克里斯托弗·毕晓普证明了具有输入噪声的训练等价于Tikhonov正则化。这项工作用数学证实了“要求函数光滑”和“要求函数对输入的随机噪声具有适应性”之间的联系。

然后在2014年，斯里瓦斯塔瓦等人就如何将毕晓普的想法应用于网络的内部层提出了一个想法：在训练过程中，他们建议在计算后续层之前向网络的每一层注入噪声。因为当训练一个有多层的深层网络时，注入噪声只会在输入-输出映射上增强平滑性。

这个想法被称为暂退法（dropout）。暂退法在前向传播过程中，计算每一内部层的同时注入噪声，这已经成为训练神经网络的常用技术。这种方法之所以被称为暂退法，因为我们从表面上看是在训练过程中丢弃（drop out）一些神经元。在整个训练过程的每一次迭代中，标准暂退法包括在计算下一层之前将当前层中的一些节点置零。

需要说明的是，暂退法的原始论文提到了一个关于有性繁殖的类比：神经网络过拟合与每一层都依赖于前一层激活值相关，称这种情况为“共适应性”。我们认为，暂退法会破坏共适应性，就像有性生殖会破坏共适应的基因一样。

那么关键的挑战就是如何注入这种噪声。一种想法是以一种无偏向（unbiased）的方式注入噪声。这样在固定住其他层时，每一层的期望值等于没有噪音时的值。

在毕晓普的工作中，他将高斯噪声添加到线性模型的输入中。在每次训练迭代中，他将从均值为零的分布 $\epsilon \sim \mathcal{N}(0,\sigma^2)$ 采样噪声添加到输入 $\mathbf{x}$ ，从而产生扰动点 $\mathbf{x}' = \mathbf{x} + \epsilon$ ，预期是 $E[\mathbf{x}'] = \mathbf{x}$ 。

在标准暂退法正则化中，通过按保留（未丢弃）的节点的分数进行规范化来消除每一层的偏差。换言之，每个中间活性值 $h$ 以暂退概率 $p$ 由随机变量 $h^{'}$ 替换，如下所示：
$\begin{aligned} h' = \begin{cases} 0 & \text{ 概率为 } p \\ \frac{h}{1-p} & \text{ 其他情况} \end{cases} \end{aligned} \tag{1}$

根据此模型的设计，其期望值保持不变，即 $E [h^{'}] = h$ 。

三、实践中的暂退法

回想一下带有1个隐藏层和5个隐藏单元的多层感知机。当我们将暂退法应用到隐藏层，以 $p$ 的概率将隐藏单元置为零时，结果可以看作一个只包含原始神经元子集的网络。比如在下图中，删除了 $h_2$ 和 $h_5$ ，因此输出的计算不再依赖于 $h_2$ 或 $h_5$ ，并且它们各自的梯度在执行反向传播时也会消失。这样，输出层的计算不能过度依赖于 $h_1, \ldots, h_5$ 的任何一个元素。

在这里插入图片描述

图1 dropout前后的多层感知机

通常，我们在测试时不用暂退法。给定一个训练好的模型和一个新的样本，我们不会丢弃任何节点，因此不需要标准化。然而也有一些例外：一些研究人员在测试时使用暂退法，用于估计神经网络预测的“不确定性”：如果通过许多不同的暂退法遮盖后得到的预测结果都是一致的，那么我们可以说网络发挥更稳定。

四、暂退法的从零开始实现

要实现单层的暂退法函数，我们从均匀分布 $U [0, 1]$ 中抽取样本，样本数与这层神经网络的维度一致。然后我们保留那些对应样本大于 $p$ 的节点，把剩下的丢弃。

在下面的代码中，我们实现 dropout_layer 函数，该函数以dropout的概率丢弃张量输入X中的元素，如上所述重新缩放剩余部分：将剩余部分除以1.0-dropout。

import torch
from torch import nn
from d2l import torch as d2l

def dropout_layer(X, dropout):
    assert 0 <= dropout <= 1
    # 在本情况中，所有元素都被丢弃
    if dropout == 1:
        return torch.zeros_like(X)
    # 在本情况中，所有元素都被保留
    if dropout == 0:
        return X
    mask = (torch.rand(X.shape) > dropout).float()
    return mask * X / (1.0 - dropout)

我们可以通过下面几个例子来测试dropout_layer函数。我们将输入X通过暂退法操作，暂退概率分别为0、0.5和1。

X= torch.arange(16, dtype = torch.float32).reshape((2, 8))
print(X)
print(dropout_layer(X, 0.))
print(dropout_layer(X, 0.5))
print(dropout_layer(X, 1.))

在这里插入图片描述

（一）定义模型参数

同样，我们使用图像分类数据集中引入的Fashion-MNIST数据集。我们定义具有两个隐藏层的多层感知机，每个隐藏层包含256个单元。

num_inputs, num_outputs, num_hiddens1, num_hiddens2 = 784, 10, 256, 256

（二）定义模型

我们可以将暂退法应用于每个隐藏层的输出（在激活函数之后），并且可以为每一层分别设置暂退概率：常见的技巧是在靠近输入层的地方设置较低的暂退概率。下面的模型将第一个和第二个隐藏层的暂退概率分别设置为0.2和0.5，并且暂退法只在训练期间有效。

dropout1, dropout2 = 0.2, 0.5

class Net(nn.Module):
    def __init__(self, num_inputs, num_outputs, num_hiddens1, num_hiddens2, is_training = True):
        super(Net, self).__init__()
        self.num_inputs = num_inputs
        self.training = is_training
        self.lin1 = nn.Linear(num_inputs, num_hiddens1)
        self.lin2 = nn.Linear(num_hiddens1, num_hiddens2)
        self.lin3 = nn.Linear(num_hiddens2, num_outputs)
        self.relu = nn.ReLU()

    def forward(self, X):
        H1 = self.relu(self.lin1(X.reshape((-1, self.num_inputs))))
        # 只有在训练模型时才使用dropout
        if self.training == True:
            # 在第一个全连接层之后添加一个dropout层
            H1 = dropout_layer(H1, dropout1)
        H2 = self.relu(self.lin2(H1))
        if self.training == True:
            # 在第二个全连接层之后添加一个dropout层
            H2 = dropout_layer(H2, dropout2)
        out = self.lin3(H2)
        return out

net = Net(num_inputs, num_outputs, num_hiddens1, num_hiddens2)

（三）训练和测试

这类似于前面描述的多层感知机训练和测试。

num_epochs, lr, batch_size = 10, 0.5, 256
loss = nn.CrossEntropyLoss(reduction='none')
train_iter, test_iter = d2l.load_data_fashion_mnist(batch_size)
trainer = torch.optim.SGD(net.parameters(), lr=lr)
d2l.train_ch3(net, train_iter, test_iter, loss, num_epochs, trainer)

在这里插入图片描述

五、暂退法的简洁实现

对于深度学习框架的高级API，我们只需在每个全连接层之后添加一个Dropout层，将暂退概率作为唯一的参数传递给它的构造函数。在训练时，Dropout层将根据指定的暂退概率随机丢弃上一层的输出（相当于下一层的输入）。在测试时，Dropout层仅传递数据。

net = nn.Sequential(nn.Flatten(),
        nn.Linear(784, 256),
        nn.ReLU(),
        # 在第一个全连接层之后添加一个dropout层
        nn.Dropout(dropout1),
        nn.Linear(256, 256),
        nn.ReLU(),
        # 在第二个全连接层之后添加一个dropout层
        nn.Dropout(dropout2),
        nn.Linear(256, 10))

def init_weights(m):
    if type(m) == nn.Linear:
        nn.init.normal_(m.weight, std=0.01)

net.apply(init_weights);

接下来，我们对模型进行训练和测试。

trainer = torch.optim.SGD(net.parameters(), lr=lr)
d2l.train_ch3(net, train_iter, test_iter, loss, num_epochs, trainer)

在这里插入图片描述

小结

暂退法在前向传播过程中，计算每一内部层的同时丢弃一些神经元。
暂退法可以避免过拟合，它通常与控制权重向量的维数和大小结合使用的。
暂退法将活性值 $h$ 替换为具有期望值 $h$ 的随机变量。
暂退法仅在训练期间使用。

原文地址：https://blog.csdn.net/Morse_Chen/article/details/145298414

免责声明：本站文章内容转载自网络资源，如侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：【开发日记】微信小程序getBackgroundAudioManager播放背景音乐提示播放失败
下一篇：【spring】集成JWT实现登录验证

无人机在城市执法监管中的应用：技术革新与监管挑战
无人机技术为城市执法监管带来了新的机遇，但同时也带来了挑战。我们需要在技术发展和法规建设之间找到平衡，确保无人机技术能够在保护公民权益的同时，为城市管理提供更高效、更智能的服务。
阅读更多2025-01-23
Linux 执行 fdisk -l 出现 GPT PMBR 大小不符解决方法
[root@VMS-Centos-test1 ~]# fdisk -lGPT PMBR 大小不符（419430399 != 4294967295），将用写入予以更正。The backup GPT ta
阅读更多2025-01-23
中国认知作战研究中心：从认知战角度分析2007年iPhone发布
无论是苹果自身的品牌塑造、竞争对手的反应、媒体的舆论导向，还是消费者的认知接受，iPhone的发布都充满了认知战的各类策略与手段。在产品发布前，苹果通过创造悬念、选择合适的发布平台等手段，制造了公众对
阅读更多2025-01-23
matlab绘图——彩色螺旋图
这段 MATLAB 代码绘制了一个彩色螺旋图，利用极坐标系中的角度和半径生成相应的 x 和 y 坐标。
阅读更多2025-01-23
Kafka中bin目录下面kafka-run-class.sh脚本中的JAVA_HOME
指定的 Java 解释器。这样，您可以在一个统一的脚本或应用程序中使用指定的或默认的 Java 版本，从而确保其一致性。这通常是一个更具体的路径，用于确保使用特定的 Java 版本或安装位置。这段脚本
阅读更多2025-01-23
消息队列篇--原理篇--Pulsar和Kafka对比分析
如果你的应用需要：强一致性和多租户支持：Pulsar是更好的选择，特别是在需要跨多个分区的消息顺序保证和多租户支持的场景中，如金融交易、订单处理等。跨地域部署：Pulsar是更好的选择，特别是在需要在
阅读更多2025-01-23
利用ML.NET精准提取人名
在当今信息爆炸的时代，文本处理任务层出不穷，其中人名提取作为基础且重要的工作，广泛应用于信息检索、社交网络分析、客户关系管理等领域。随着人工智能不断进步，ML.NET作为微软推出的开源机器学习框架，为
阅读更多2025-01-23
提升制造业效率的利器：基于Python的自动化质检系统
在这个示例中，我们使用OpenCV库进行图像预处理，将图像转换为灰度并调整尺寸，然后使用预训练的TensorFlow模型进行缺陷检测。同时，引入边缘计算技术，在本地进行数据处理，减少数据传输延迟。：自
阅读更多2025-01-23
Hadoop实战-电商离线数仓学习笔记4.0
1-ER模型根据实体关系建模，满足三范式规范2-维度建模区分事实表和维度表，事实对应业务过程，维度对应业务过程发生时所处的环境，事实是不可拆分的通过对开始日期和结束日期做约束，可以得到某时间点的全部数
阅读更多2025-01-23
C++17 新特性解析：Lambda 捕获 this
在这篇文章中，我们将深入探讨 lambda 表达式中的一个特别有用的新特性：通过 *this 捕获当前对象的副本。在这个例子中，*this 在 lambda 表达式中创建了 MyClass 的一个副本
阅读更多2025-01-23

【深度学习基础】多层感知机 | 暂退法（Dropout）

文章目录

一、重新审视过拟合

二、扰动的稳健性

三、实践中的暂退法

四、暂退法的从零开始实现

（一）定义模型参数

（二）定义模型

（三）训练和测试

五、暂退法的简洁实现

小结

相关文章