深度学习中的 Dropout：原理、公式与实现解析

🕗 发布于 2024-11-07 08:21 深度学习 人工智能 python transformer 神经网络

8. dropout

深度学习中的 Dropout：原理、公式与实现解析

在神经网络训练中，模型往往倾向于“记住”训练数据的细节甚至噪声，导致模型在新数据上的表现不佳，即过拟合。为了解决这一问题，Dropout 应运而生。通过在训练过程中随机丢弃一部分神经元，Dropout 能减少模型对特定神经元的依赖，从而提升泛化能力，今天我们将深入讲解 Dropout 的原理，并用代码实现它！

为什么需要 Dropout？

在没有正则化的情况下，神经网络可能会过于依赖于某些特定的神经元，这种现象容易导致过拟合。Dropout 通过随机丢弃神经元，避免模型过度依赖某些特征，使得模型在新数据上表现更好。

Dropout 的工作原理

1. Dropout 的训练过程

假设我们有一个输入向量 $[x_1, x_2, \dots, x_n]$ ，Dropout 在训练时会遵循以下步骤：

设置丢弃概率 $p$ ：通常在 0.1 到 0.5 之间，表示每个神经元被丢弃的概率。
生成随机掩码 $m$ ：
- 对每个神经元生成一个随机值。
- 如果随机值小于 $p$ ，该神经元输出置为 0（即丢弃）。
- 如果随机值大于等于 $p$ ，该神经元输出保持不变。
应用掩码：将掩码与输入相乘，丢弃部分神经元输出。

在测试时，我们不再随机丢弃神经元，而是将每个神经元的输出缩小 $1 - p$ 倍，以保持与训练时相同的输出期望值。

Dropout 的数学公式

在训练时，Dropout 可以用以下公式表示：

$\text{output} = x \cdot m$

其中 $m$ 是随机掩码，0 表示丢弃，1 表示保留。训练时，为了保持输出一致性，我们会将结果除以 $1 - p$ ：

$\text{output} = \frac{x \cdot m}{1 - p}$

在测试时，我们不再随机丢弃，而是将每个神经元的输出乘以 $1 - p$ ：

$\text{output} = x \cdot (1 - p)$

这样可以确保训练和测试时的输出分布一致。

自己实现一个 Dropout 类

为了帮助大家理解 Dropout 的实现原理，我们可以用 Python 和 PyTorch 实现一个简单的 Dropout 类。

import torch
import torch.nn as nn

class CustomDropout(nn.Module):
    def __init__(self, p=0.5):
        super(CustomDropout, self).__init__()
        self.p = p  # 丢弃概率

    def forward(self, x):
        if self.training:
            # 生成与 x 形状相同的随机掩码
            mask = (torch.rand_like(x) > self.p).float()
            return x * mask / (1 - self.p)
        else:
            # 推理时，直接缩放输出
            return x * (1 - self.p)

代码解析

初始化：我们定义了 p 表示丢弃的概率。p 越大，丢弃的神经元越多。
前向传播：
- 在训练模式下：生成一个与输入张量形状相同的随机掩码，对每个神经元随机保留或丢弃。
- 在测试模式下：不再随机丢弃，而是将输出乘以 $1 - p$ ，确保输出分布一致。

测试代码

我们可以使用以下代码测试自定义 Dropout 的效果。

# 输入张量 x
x = torch.ones(5, 5)  # 一个简单的 5x5 全 1 张量

# 实例化自定义 Dropout
dropout = CustomDropout(p=0.5)

# 训练模式
dropout.train()
output_train = dropout(x)
print("训练模式下的输出：\\n", output_train)

# 推理模式
dropout.eval()
output_eval = dropout(x)
print("推理模式下的输出：\\n", output_eval)

解释测试结果

训练模式：输出中会有一部分元素被随机置为 0，其余的值会放大（除以 $1 - p$ ）。
推理模式：所有元素值会被缩小到 $1 - p$ 倍，以确保训练和推理阶段输出分布一致。

为什么训练和测试阶段需要缩放？

在训练时，Dropout 随机丢弃一部分神经元，使得实际参与计算的神经元变少。这样训练时的输出总量会降低，因此我们需要对保留下来的神经元进行缩放（除以 $1 - p$ ）。在测试时，我们则对输出进行整体缩放（乘以 $1 - p$ ），以确保训练和测试阶段的输出期望值一致，从而保证模型在不同阶段表现一致。

总结

Dropout 是一种防止过拟合的正则化方法，通过随机丢弃神经元来提升模型的泛化能力。
在训练时，随机丢弃神经元并缩放剩余神经元的输出。
在推理时，直接缩放整个输出，以保持训练和推理的分布一致。

希望这篇文章能帮助你理解 Dropout 的工作原理和实现过程。如果有任何疑问，欢迎留言讨论！

原文地址：https://blog.csdn.net/weixin_52582573/article/details/143580096

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：图像领域|第一章|卷积神经网络
下一篇：在Scrapy爬虫中应用Crawlera进行反爬虫策略

多线程小知识
多线程小知识~
阅读更多2024-11-13
python爬虫指南——初学者避坑篇
知识点描述常用方法或库HTTP基础了解HTTP请求和响应，GET、POST、状态码等HTML结构解析通过标签定位、CSS选择器、XPath解析HTML内容lxml正则表达式使用正则表达式从文本中匹配特
阅读更多2024-11-13
Spring Boot基础教学：Spring Boot 简介
Spring框架的简介Spring Boot与Spring框架的关系Spring Boot的优势总结推荐资源和进一步学习的路径该课件大纲仅提供一个框架性的介绍，并不能涵盖Spring Boot的所有复
阅读更多2024-11-13
Android——多线程、线程通信、handler机制
这样，我们的主线程不会阻塞，在执行这个任务后，页面也可以正常交互，但是在子线程中不能操纵页面，所以。在Activity中定义一个Handler。会有问题，所以我们需要进程通信。通过 mHandler
阅读更多2024-11-13
Unity教程（十八）战斗系统攻击逻辑
本文为Udemy课程The Ultimate Guide to Creating an RPG Game in Unity学习笔记，如有错误，欢迎指正。本节实现战斗系统的攻击逻辑部分。
阅读更多2024-11-13
第二天python笔记
True真/1 非零为True 非空格字符为True。字符串与c语言一致，字符下标从0开始，或者倒序右边从-1开始。允许多个变量指向同一个值（连等，且内存地址也相同。变量=input(先输
阅读更多2024-11-13
23种设计模式的Flutter实现第一篇创建型模式(一)
这篇文章主要讲述23种设计模式使用Flutter如何实现。
阅读更多2024-11-13
三 Spring的入门程序
docs：spring框架的：spring框架的jar文件schema：spring框架的。
阅读更多2024-11-13
【含开题报告+文档+源码】基于SpringBoot的智慧养老医护管理系统
本课程演示的是一款基于SpringBoot的智慧养老医护管理系统，主要针对计算机相关专业的正在做毕设的学生与需要项目实战练习的 Java 学习者。1.包含：项目源码、项目文档、数据库脚本、软件工具等
阅读更多2024-11-13
Redis 数据类型
Redis支持五种数据类型：string（字符串），hash（哈希），list（列表），set（集合）及zset(sorted set：有序集合)。
阅读更多2024-11-13

深度学习中的 Dropout：原理、公式与实现解析

8. dropout

深度学习中的 Dropout：原理、公式与实现解析

为什么需要 Dropout？

Dropout 的工作原理

1. Dropout 的训练过程

Dropout 的数学公式

自己实现一个 Dropout 类

代码解析

测试代码

解释测试结果

为什么训练和测试阶段需要缩放？

总结

相关文章