【机器学习】18. 反向传播 Backpropagation algorithm, 学习率，动量Momenetum, Xavier，梯度消失

🕗 发布于 2024-11-07 22:52 机器学习 学习 人工智能 算法数据挖掘

反向传播

1. 定义
2. 权重更新公式
3. 梯度下降更新权重
4. 反向传播数学计算理解
5. 结构来带的问题
6. 介绍训练例子
7. 学习率
8. 动量 Momentum
9. 权重初始化
10. 算法的进步
11. 梯度消失问题

1. 定义

对于每一个训练样本传入网络, 直到输出层, 这个过程称为正向传播, 将其输出与标签进行比较, 计算误差, 根据误差, 从输出层到输入层逐级反向传播, 调整每个神经元的权重, 以减小误差, 这个过程就是反向传播.

2. 权重更新公式

$w^{new}_{pq} = w^{old}_{pq}+ Δw_{pq}$

3. 梯度下降更新权重

$Δw = η⋅δ_q⋅o_p$

若q是输出层的神经元, 则
$δ_q = (t_q-o_q)f'(z_q)$
$f ’ (x) = f (x) \cdot (1 - f (x)) [s i g m o i d]$
2.若q是隐藏层的神经元，则
$δ_q = f'(z_q)\sum_i w_{qi}δ_i$
i是q后面的神经元,p->q->i

4. 反向传播数学计算理解

在这里插入图片描述
transfer function

学习率η=0.9

首先前向传播得到结果
$z_4 = 1*0.2 + 0*0.4 + 1*(-0.5) - 0.4 = -0.7$ $o_4 = 1/(1+e^{-x}) = 1/(1+e^{0.7}) = 0.332$
$z_5 = 1*(-0.3) + 0*0.1 + 1*0.2 +0.2 = 0.1$ $o_5 = 1/(1+e^{-x}) = 1/(1+e^{-0.1}) = 0.525$
$z_6 = 0.332*(-0.3) + 0.525*(-0.2) +0.1 = -0.0996-0.105+0.1 = -0.1046$ $o_6 = 1/(1+e^{-x}) = 1/(1+e^{0.105}) = 0.474$
接下来反向传播更新权重
$δ_6 = (t_6-o_6)f'(z_6) = (t_6-o_6)f(z_6)(1-f(z_6)) = (1-0.474) * 0.474*(1-0.474) = 0.1311$
$Δw_{46} = η *δ_6 *o4$
$w_{46}(new) = w_{46}(old)+Δw_{46}$
$b_6(new) = b_6(old) + Δb_6$

5. 结构来带的问题

太多隐藏层会过拟合，太少会欠拟合

6. 介绍训练例子

对于每个epoch，选择排列好的训练例子。
多展示误差较大的例子，少展示误差较小的例子
不是一个一个地展示这些例子，而是以N个例子为批次，总结它们各自的错误，并在每批（min-batch）后更新

7. 学习率

学习率可以是固定的, 也可以随时间变化.
在这里插入图片描述

8. 动量 Momentum

动量, momentum, 通过在权重更新公式中引入一个额外的动量项, 使得当前的权重更新依赖于之前的更新, 从而减少振荡并允许使用更大的学习率
在这里插入图片描述

9. 权重初始化

标准的做法: 从-1到1之间选择小的随机数
Xavier：权重从一个正态分布中产生
$\sqrt{\frac{2}{N_{in}+N_{out}}}$
in 和 out 分别是当前层输入神经元数量和输出神经元数量。

10. 算法的进步

克服消失梯度问题
Dropout以避免过拟合
新的初始化方法：使用自动编码器进行预训练
卷积和共享权重

11. 梯度消失问题

o非常小导致δ非常小，权重更新也非常小

特别是如果有许多隐藏层-递减梯度，收敛缓慢
即使输出层的激活不饱和，当我们将梯度从输出层反向传播到隐藏层时进行的重复乘法也可能导致梯度递减
输出到隐藏层可能会导致梯度递减
消失的梯度问题：权重变化为较低的水平都很小；这些层的学习速度比更高的隐藏层要慢
这一直是训练深度神经网络的一个主要问题

解决方法：使用其他激活功能（LReLu）

原文地址：https://blog.csdn.net/weixin_48846514/article/details/143428476

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：线性代数（第一章：行列式）
下一篇：基于python多准则决策分析的汽车推荐算法设计与实现

go网络编程
上述代码有个瑕疵就是每次客户端退出就会输出 EOF ，为了避免这个输出，可以使用如下代码处理。完整的改进版 server 端代码如下，客户端代码不变。再打开一个终端，运行客户端代码。再打开一个窗口运行
阅读更多2024-11-08
Webserver(3.3)生产者消费者模型
解决该问题需要用互斥量确保线程同步，用条件变量或者信号量去解决生产者和消费者之间同步的问题，生产者把数据生产满了要通知消费者去消费。会产生数据安全问题，比如生产者还未生产出来，就去消费。
阅读更多2024-11-08
SQL练习专场--01
在这个专场中，会陆续更新一些关于sql的面试题。
阅读更多2024-11-08
MySQL——索引
MySQL索引的特性
阅读更多2024-11-08
Navicat for MySQL 错误：1251
mySql：8.4Navicat for MySQL：11.0.10 企业版绿色版。
阅读更多2024-11-08
【ORACLE】对Oracle中char类型的研究分析
在国产数据库做ORACLE兼容性实现时，无可避免会遇到CHAR类型的差异，但是对于大多数的应用开发者来说，并不会深入去了解char类型的机制。很多开发者之前在ORACLE上就没弄懂，好不容易写出来的S
阅读更多2024-11-08
python venv 使用介绍
注意⭐：`venv` 本身不能直接安装其他版本的 Python。它只能使用已安装的 Python 版本来创建虚拟环境。因此，如果你需要使用不同的 Python 版本（例如 Python 3.8 或 P
阅读更多2024-11-08
Java基础使用①Java特点+环境安装+IDEA使用
Java基础使用①Java特点+环境安装+IDEA使用（Java特点+jdk+IntelliJ IDEA安装和输入hello+IDEA常见快捷键）
阅读更多2024-11-08
浏览器是如何渲染页面的？ - 2024最新版前端秋招面试短期突击面试题
当浏览器的网络线程收到 HTML 文档后，会产生一个渲染任务，并将其传递给渲染主线程的消息队列。主线程会依次处理这些任务，开启渲染流程。浏览器的渲染过程是一个复杂而高效的流水线，每一步都有明确的输入和
阅读更多2024-11-08
法语nous sommes
法语短语。
阅读更多2024-11-08