深度学习：神经网络中的非线性激活的使用

🕗 发布于 2024-11-21 06:09 深度学习 神经网络 人工智能

深度学习：神经网络中的非线性激活的使用

在神经网络中，非线性激活函数是至关重要的组件，它们使网络能够捕捉和模拟输入数据中的复杂非线性关系。这些激活函数的主要任务是帮助网络解决那些无法通过简单的线性操作（如权重相乘和偏置相加）解决的复杂数据模式，例如解决异或问题（XOR）和执行多类分类。

非线性激活函数的重要性

不包含非线性激活函数的神经网络，无论其层数有多深，其功能本质上仍然是线性的。这是因为多层线性变换只是一系列线性关系的组合，其总效果依然是线性的。非线性激活函数的引入打破了这种线性限制，使得网络能够通过每层的非线性变换学习复杂的任务和模式。

常用的非线性激活函数

ReLU (Rectified Linear Unit)

ReLU函数是目前最广泛使用的激活函数之一，尤其是在卷积神经网络（CNN）中。其数学表达式非常简单：

[ f(x) = \max(0, x) ]

优点:

计算效率高：ReLU的实现非常高效，因为它只需要对输入值进行阈值设置。
缓解梯度消失问题：在输入为正时，ReLU的导数恒为1，这有助于梯度在深层网络中的有效传播。

缺点:

神经元死亡问题：在训练过程中，一旦输入在激活前是负的，ReLU激活后输出为0，这些神经元在之后的训练过程中将不再更新，称为“死亡”。

Sigmoid

Sigmoid函数是另一种广泛使用的激活函数，尤其是在输出层用于二分类问题中，其输出可以视为概率值。其表达式为：

[ \sigma(x) = \frac{1}{1 + e^{-x}} ]

优点:

输出范围明确：输出值被挤压在0和1之间，适合表示概率。

缺点:

梯度消失：Sigmoid函数在输入值较大或较小时导数接近0，这会导致梯度消失问题，从而阻碍权重的有效更新。
输出非零中心化：Sigmoid函数输出恒正，导致其输出的平均值不为0，这可能影响后续层的学习。

PyTorch中ReLU和Sigmoid的应用示例

下面的示例展示了如何在PyTorch中使用ReLU和Sigmoid激活函数来处理数据：

import torch
import torch.nn as nn

# 定义一个简单的神经网络模块，仅包含激活函数
class ActivationModule(nn.Module):
    def __init__(self):
        super(ActivationModule, self).__init__()
        # 初始化ReLU和Sigmoid激活函数
        self.relu = nn.ReLU()
        self.sigmoid = nn.Sigmoid()

    def forward(self, x):
        # 首先应用ReLU激活函数
        x = self.relu(x)
        # 然后应用Sigmoid激活函数
        x = self.sigmoid(x)
        return x

# 创建模型实例
model = ActivationModule()

# 创建一个输入张量
inputs = torch.tensor([[0.5, -0.6],
                       [-1.0, 3.0],
                       [1.5, -2.0]], dtype=torch.float32)

# 通过模型传递输入
outputs = model(inputs)
print("Inputs:", inputs)
print("Outputs after ReLU and Sigmoid:", outputs)

详细的代码解释

模型定义 (ActivationModule 类):

该类继承自 nn.Module，是所有PyTorch神经网络模块的基础。
在构造函数中，我们初始化了两个激活函数对象：nn.ReLU() 和 nn.Sigmoid()。这允许模型在数据流经网络时先经过ReLU激活处理，然后通过Sigmoid函数进一步处理。

前向传播 (forward 方法):

输入数据 x 首先通过ReLU激活函数，该函数将所有负值转换为0，这有助于处理那些可能导致梯度消失或爆炸的负激活值。
经过ReLU处理后的数据接着通过Sigmoid激活函数。这一步将激活值转换成范围在0和1之间的输出，适用于表示概率，特别是在进行二分类任务时。

结论

非线性激活函数是神经网络设计中不可或缺的部分，它们赋予了网络处理非线性问题的能力。通过合适的激活函数可以根据具体问题的需求来优化网络的性能和效率。在实际应用中，应综合考虑激活函数的特性来选择最适合的类型。

原文地址：https://blog.csdn.net/m0_73640344/article/details/143924866

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：探索设计模式：原型模式
下一篇：用 Python 从零开始创建神经网络（九）：反向传播（Backpropagation）（还在更新中。。。）

MySQL系列之身份鉴别（安全）
MySQL的身份鉴别是数据库安全的核心命题之一。在每日“拧螺丝”的工作中，我们的开发人员可能会忽略这个问题。正因如此，博主以这个契机，向大家做一次专题介绍。看过此文，相信你能够“上应付得了等保，下对得
阅读更多2024-11-21
uni app下开发AI运动小程序解决方案
开发者可以根据实际需求，自由选择并调用相应的接口，以实现丰富的功能，如通过相机抽帧控制来精确捕捉画面，利用人体识别技术来检测并跟踪人体动作，或是通过姿态识别与相似度比较功能来分析并比较用户的体态特征，
阅读更多2024-11-21
AI时代，百度的三大主义
这样的表态，在当时的环境下需要极大的勇气，事后证明，这其实就是全球主流的AI方向。目前在百度智能云的千帆大模型平台上，已经累计精调了3.3万个大模型，开发出了77万个企业级应用，百度智能云已经拥有中国
阅读更多2024-11-21
nwjs崩溃复现、 nwjs-控制台手动操纵、nwjs崩溃调用栈解码、剪切板例子中、nwjs混合模式、xdotool显示nwjs所有进程窗口列表
nwjs崩溃调用栈解码
阅读更多2024-11-21
【设计模式】【创建型模式（Creational Patterns）】之单例模式
这些实现都遵循了单例模式的基本原则：确保一个类只有一个实例，并提供一个全局访问点。每种语言的实现方式有所不同，但核心思想是一致的。
阅读更多2024-11-21
C++篇之多态
类成员函数前⾯加virtual修饰，那么这个成员函数被称为虚函数。注意⾮成员函数不能加virtual修饰。
阅读更多2024-11-21
java 设计模式模板方法模式
java 设计模式，模板方法模式，springboot，SpringCloudAlibaba，Springboot+Vue
阅读更多2024-11-21
Vue前端开发子组件向父组件传参
在父组件中，如果需要获取子组件中的数据，有两种方式，一种是在子组件中自定义事件，父组件绑定该事件，当触发自定义事件时，向父组件传入参数；另一种是先通过ref属性给子组件命名，然后在父组件中就可以调用$
阅读更多2024-11-21
【STM32】时钟系统
在我们学习STM32之前，我们需要先了解STM32系列芯片的时钟系统，这个是我们学习这个芯片的基础。为什么时钟系统这么重要呢？举个例子，如果把STM32比作我们的整个人体，那么时钟就是维持我们人体正常
阅读更多2024-11-21
华为云鸿蒙应用入门级开发者认证考试题库(理论题和实验题）
华为云鸿蒙应用入门级开发者认证题库，包含了大部分HCCDA考试认证题目
阅读更多2024-11-21

深度学习：神经网络中的非线性激活的使用