深度学习：（六）激活函数的选择与介绍

🕗 发布于 2024-09-23 05:06 深度学习 人工智能

激活函数

之前使用的 $a=\sigma(z)$ ，其中 $\sigma(~)$ 便是激活函数。

在神经网络中，不同层的激活函数可以不同。

在学习中，一般以 $g (z)$ 来表示激活函数。

为什么需要(线性)激活函数？

不需要激活函数就等同于使用线性激活函数 $g (z) = z$ （恒等激活函数），那么使用单个样本下的双层网络代码就为：
$\begin{align*} &Given~~input~~x:\\ &~~~~~~~~a^{[0]}=x\\ &~~~~~~~~z^{[1]}=W^{[1]}a^{[0]}+b^{[1]}\\ &~~~~~~~~a^{[1]}=z^{[1]}\\ &~~~~~~~~z^{[2]}=W^{[2]}a^{[1]}+b^{[2]}\\ &~~~~~~~~a^{[2]}=z^{[2]} \end{align*}$
将最后的结果展开，则 $a^{[2]}=z^{[2]}=W^{[2]}(W^{[1]}a^{[0]}+b^{[1]})+b^{[2]}=(W^{[2]}W^{[1]})a^{[0]}+W^{[2]}b^{[1]}+b^{[2]}$ ，其中 $W^{[2]}W^{[1]}$ 可以看作 $W^{'}$ ， $W^{[2]}b^{[1]}+b^{[2]}$ 可以看作 $b^{'}$ ，最终可等效为 $a^{[2]}=W^{'}a^{[0]}+b^{'}$ 。

这说明，如果没有激活函数，或者是其他线性激活函数，那么无论层数多深，总会存在与之等效的单层神经网络，那么深度学习的意义就没有了，就变成了单纯的逻辑回归了。

特例

针对回归问题，输出层可以使用线性激活函数，而隐藏层依旧不可以。

sigma函数

$g(z)=\sigma(z)$

公式： $a=\sigma(z)=\frac{1}{1+e^{-z}}$ 。

函数图像：
在这里插入图片描述

梯度/斜率/导数：
$\begin{align*} g^{'}(z)=\frac{d}{dz}g(z)&=\frac{1}{1+e^{-z}}(1-\frac{1}{1+e^{-z}})\\ &=g(z)[1-g(z)] \end{align*}$
导数图像：
在这里插入图片描述

使用：在**二元分类**问题上（输出层的结果为0~1），输出层的激活函数可以使用sigma函数。

禁用：在非二元分类问题上，禁用，即使是二元分类问题，隐藏层中也不能用。

缺点： $z$ 非常大或者非常小时， $\sigma(z)$ 函数的梯度（斜率）会很小，会形成梯度消失问题，从而拖慢梯度下降算法。

双曲正切函数

$g (z) = t anh (z)$

公式： $a=tanh(z)=\frac{e^z-e^{-z}}{e^z+e^{-z}}$ 。

函数图像：
在这里插入图片描述

优点：可达到“数据中心化”的效果，即数据平均值接近 $0$ 。

缺点：① 二元分类问题上（输出层的结果为0~1），输出层不能用。

② $z$ 非常大或者非常小时， $t anh (z)$ 函数的梯度（斜率）会很小，会形成梯度消失问题，从而拖慢梯度下降算法。

梯度/斜率/导数：
$\begin{align*} g^{'}(z)=\frac{d}{dz}g(z)=1-g^{2}(z) \end{align*}$
导数图像：
在这里插入图片描述

线性修正单元（ReLU）

$g (z) = R e LU (z)$

现在已经变成隐层激活函数的默认选择了。

公式： $a=ReLU(z)=max\{0,z\}$ 。

函数图像：
在这里插入图片描述

P.S.： $z = 0$ 这一点的导数不存在，但在编程中，刚好 $z = 0$ 的概率非常之低，所以不用担心。或者自己可以给 $z = 0$ 点的导数赋值。

**注意：**ReLU并不是线性激活函数，其导数并不是在全域都为恒定值。

梯度/斜率/导数：
$\begin{align*} g^{'}(z)=\begin{cases} 0, & \text {if $z<0$}\\ 1, & \text {if $z≥0$}\\ \end{cases} \end{align*}$
$z = 0$ 处的导数，可以人为定义成 $1$ 或 $0$ 。

导数图像：
在这里插入图片描述

带泄露ReLU（Leaky ReLU）

$g (z) = L e ak y R e LU (z)$

公式： $a=Leaky~ReLU(z)=max\{b·z,z\}$ ， $b$ 可以取 $0.01$ 。

函数图像：
在这里插入图片描述

梯度/斜率/导数：
$\begin{align*} g^{'}(z)=\begin{cases} 0.01, & \text {if $z<0$}\\ 1, & \text {if $z≥0$}\\ \end{cases} \end{align*}$
$z = 0$ 处的导数，可以人为定义成 $1$ 或 $0.01$ 。

导数图像：
在这里插入图片描述

原文地址：https://blog.csdn.net/qq_51409113/article/details/142442844

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：开源 AI 智能名片 S2B2C 商城小程序与营销工具的快速迭代
下一篇：如何区分是赚钱还是创业

B-树特点以及插入、删除数据过程
查找插入位置：通过树的层级结构，从根节点到叶子节点进行查找，确定插入位置。插入元素：如果目标叶子节点有空间，直接插入元素。节点分裂：如果插入导致节点超出最大容量，将节点分裂并将中间元素推送到父节点。递
阅读更多2024-11-15
JWT深度解析：Java Web中的安全传输与身份验证
JSON Web Token（JWT）是一种轻量级的身份验证和授权标准，它允许在各方之间安全地传输信息。JWT作为一种安全传输信息和身份验证的解决方案，在Java Web开发中扮演着重要角色。它通过紧
阅读更多2024-11-15
AR眼镜方案_AR智能眼镜阵列/衍射光波导显示方案
采用光波导技术的AR眼镜显示方案，核心结构通常由光机、波导和耦合器组成。光机内的微型显示器通过一系列透镜将光线耦入波导镜片，使光线在波导中以全反射形式传播，并最终通过耦合器投射到人眼。因此，系统尺寸得
阅读更多2024-11-15
Invar-RAG：基于不变性对齐的LLM检索方法提升生成质量
在检索增强型生成（Retrieval-Augmented Generation, RAG）系统中直接应用大型语言模型（Large Language Models, LLMs）时面临的挑战。特征局部性问
阅读更多2024-11-15
决策树基本 CART Python手写实现
【代码】决策树基本 CART Python手写实现。
阅读更多2024-11-15
Redis
String：简单键值存储，适合计数器、单一属性缓存。Hash：结构化存储，适用于存储对象数据（如用户信息）。List：有序队列，适合消息队列、任务队列。Set：无序集合，用于去重、唯一性统计、共同好
阅读更多2024-11-15
2、家庭网络发展现状
也就是wifi网络的更远覆盖，众所周知，经过节点mesh组网之后，速率会有一定下降，这也就是说mesh组网必须是5G组网或者有线组网，这样才可保证用户的体验，否则即使延伸了wifi信号覆盖，也会导致速
阅读更多2024-11-15
游戏引擎学习第10天
RDTS是一种低级的、高精度的方式，用于访问处理器的时间戳计数器。它广泛用于性能分析、基准测试和高精度计时。需要注意的是，在使用时可能会受到 CPU 频率变化和多核同步等问题的影响，在这种情况下，RD
阅读更多2024-11-15
Spring Data Redis常见操作总结
Spring Data Redis常见操作总结
阅读更多2024-11-15
css三角制作（二十课）
CSS 这根神奇的魔法棒，就能把三角变出来 so easy！
阅读更多2024-11-15

深度学习：（六）激活函数的选择与介绍

激活函数

为什么需要(线性)激活函数？

特例

sigma函数

双曲正切函数

线性修正单元（ReLU）

带泄露ReLU（Leaky ReLU）

相关文章