【深度学习】—激活函数、ReLU 函数、 Sigmoid 函数、Tanh 函数

🕗 发布于 2024-10-06 00:53 深度学习 人工智能

【深度学习】—激活函数、ReLU 函数、 Sigmoid 函数、Tanh 函数

4.1.2 激活函数

4.1.2 激活函数

激活函数（activation function）用于计算加权和并加上偏置，决定神经元是否被激活。它将输入信号转化为可微的输出，大多数激活函数是非线性的。激活函数是深度学习的基础，下面介绍几种常见的激活函数。

ReLU 函数

最受欢迎的激活函数是修正线性单元（Rectified Linear Unit, ReLU），它实现简单且在各种预测任务中表现优异。ReLU 提供了一种非常简单的非线性变换，定义为：

(4.1.4)

通俗地说，ReLU 通过将负值设为 0，仅保留正数。我们可以通过下列代码绘制 ReLU 函数的曲线来直观感受其行为。正如图中所示，ReLU 是分段线性的。

import torch
from d2l import torch as d2l

x = torch.arange(-8.0, 8.0, 0.1, requires_grad=True)
y = torch.relu(x)
d2l.plot(x.detach(), y.detach(), 'x', 'relu(x)', figsize=(5, 2.5))

在这里插入图片描述

当输入为负时，ReLU 的导数为 0；当输入为正时，导数为 1。当输入值精确等于 0 时，ReLU 不可导，但我们通常忽略这种情况，假设导数为 0。我们可以绘制 ReLU 函数的导数曲线。

y.backward(torch.ones_like(x), retain_graph=True)
d2l.plot(x.detach(), x.grad, 'x', 'grad of relu', figsize=(5, 2.5))

在这里插入图片描述

ReLU 的求导性质使得参数要么消失，要么通过，从而优化效果更好，缓解了神经网络中常见的梯度消失问题（将在后续章节介绍）。

参数化 ReLU

ReLU 有许多变体，其中包括参数化 ReLU（Parameterized ReLU, pReLU）。pReLU 为 ReLU 添加了一个线性项，使得即使输入为负，仍有信息可以传递：

$\text{pReLU}(x) = \max(0, x) + \alpha \min(0, x).$

Sigmoid 函数

对于定义域在 $\mathbb{R}$ 中的输入，sigmoid 函数将输入变换为区间 $(0, 1)$ 上的输出，因此 sigmoid 通常称为挤压函数（squashing function）。它将任意输入压缩到区间 $(0, 1)$ 中的某个值，定义如下：

(4.1.6)

背景

在早期的神经网络中，科学家们通过 sigmoid 函数模拟生物神经元的激发和非激发。它是阈值单元的平滑可微近似，当输入低于某个阈值时输出接近 0，超过阈值时输出接近 1。由于 sigmoid 的平滑性和可导性，它在基于梯度的学习中得到广泛应用，特别是在将输出视为二元分类问题的概率时，仍然使用 sigmoid 作为输出层的激活函数。

然而，随着 ReLU 函数的引入，sigmoid 在隐藏层中的应用逐渐减少，因为 ReLU 更简单且更易于训练。在后续关于循环神经网络的章节中，我们将探讨如何使用 sigmoid 来控制时序信息流。

绘制 sigmoid 函数

我们可以通过代码绘制 sigmoid 函数曲线。注意，当输入接近 0 时，sigmoid 函数近似线性。

y = torch.sigmoid(x)
d2l.plot(x.detach(), y.detach(), 'x', 'sigmoid(x)', figsize=(5, 2.5))

在这里插入图片描述

Sigmoid 函数的导数

sigmoid 函数的导数公式如下：

(4.1.7)

我们可以通过代码绘制 sigmoid 函数的导数曲线。注意，当输入为 0 时，sigmoid 函数的导数达到最大值 0.25；而当输入远离 0 时，导数逐渐趋近于 0。

# 清除以前的梯度
x.grad.data.zero_()
y.backward(torch.ones_like(x), retain_graph=True)
d2l.plot(x.detach(), x.grad, 'x', 'grad of sigmoid', figsize=(5, 2.5))

在这里插入图片描述

这表明 sigmoid 函数在输入较大或较小时的梯度非常小，这导致在深层网络中可能会出现梯度消失问题。

Tanh 函数

与 sigmoid 函数类似，tanh（双曲正切）函数也可以将输入压缩到区间 $(- 1, 1)$ 上。tanh 函数的公式如下：

(4.1.8)

我们可以通过代码绘制 tanh 函数。注意，当输入在 0 附近时，tanh 函数接近线性，且函数关于原点对称。

y = torch.tanh(x)
d2l.plot(x.detach(), y.detach(), 'x', 'tanh(x)', figsize=(5, 2.5))

在这里插入图片描述

Tanh 函数的导数

tanh 函数的导数为：

(4.1.9)

当输入接近 0 时，tanh 函数的导数接近最大值 1。类似于 sigmoid 函数，当输入远离 0 时，导数逐渐趋近于 0。我们可以绘制 tanh 函数的导数图像。

# 清除以前的梯度
x.grad.data.zero_()
y.backward(torch.ones_like(x), retain_graph=True)
d2l.plot(x.detach(), x.grad, 'x', 'grad of tanh', figsize=(5, 2.5))

在这里插入图片描述

总结

我们已经了解了如何使用非线性激活函数（如 ReLU、sigmoid 和 tanh）来构建具有更强表达能力的多层神经网络。值得一提的是，如今借助开源的深度学习框架，只需几行代码即可快速构建模型，而在 20 世纪 90 年代，训练这些网络可能需要数千行 C 或 Fortran 代码。

原文地址：https://blog.csdn.net/weixin_56462041/article/details/142717828

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：51c视觉~CV~合集3
下一篇：Python机器学习：数据预处理与清洗的打开方式

FPGA时序分析和约束学习笔记（2、FPGA时序传输模型）
Tsu建立时间：目的寄存器自身的特性决定，在时钟上升沿到达其时钟接口时，其数据输入端（D）的数据必须提前Nns稳定下来，否则就无法确保数据正确存储。Skew时钟偏斜：时钟从源端口出发，到达目的寄存器和
阅读更多2024-10-06
打卡第一天 B2005 字符三角形
【代码】打卡第一天 B2005 字符三角形。
阅读更多2024-10-06
IEC104规约的秘密之六----配置参数k，w
w是通讯前就已经配置好的一个固定值，范围是1~32767，表示收到对方w帧后就必须给对方一个应答了，表示这些帧我已经收到了，如果不给对方应答，对方会认为自己发的这些帧没有收到，后续可以采用其他机制来让
阅读更多2024-10-06
算法闭关修炼百题计划（二）
给你一个整数数组 nums，返回数组 answer ，其中 answer[i] 等于 nums 中除 nums[i] 之外其余各元素的乘积。根据这一点，用哈希表分组，把排序后的字符串当做key，原字
阅读更多2024-10-06
C# 数组和集合
数组是具有相同数据类型的一组数据的集合。数组中的每一个变量称为数组的元素，数组能够容纳元素的数量称为数组的长度。
阅读更多2024-10-06
UE5 小地图的基础方法
UE5 平面小地图的基础方法，后续继续添加
阅读更多2024-10-06
第33次CCF计算机软件能力认证【T1~T3】：词频统计、相似度计算、化学方程式配平
CCF计算机软件能力认证，前三题包括大模拟、高斯消元、枚举等操作
阅读更多2024-10-06
洛谷刷题 P1042 [NOIP2003 普及组] 乒乓球
接着我们对二维数据循环访问处理数据，对11制和21制一轮结束情况做讨论，注意if，else if的使用（是并行情况还是多选一情况）那么数据存储我们可以用C++的vector<char>，或
阅读更多2024-10-06
spring boot发送邮件
spring boot整合mail发送邮件
阅读更多2024-10-06
银行数字化转型导师坚鹏：2025年银行开门红蓄客方法及案例
银行营销、运营、数字化营销、数字化运营、网点负责人、中高层干部等相关人员。3、第三个难题：银行需要做哪些准备工作？4、第四个难题：如何抛开疑虑、放手去做？1、第一个难题：银行锁定哪些目标客户？2
阅读更多2024-10-06

【深度学习】—激活函数、ReLU 函数、 Sigmoid 函数、Tanh 函数

【深度学习】—激活函数、ReLU 函数、 Sigmoid 函数、Tanh 函数

4.1.2 激活函数

ReLU 函数

参数化 ReLU

Sigmoid 函数

背景

绘制 sigmoid 函数

Sigmoid 函数的导数

Tanh 函数

Tanh 函数的导数

总结

相关文章