探索反向传播：深度学习中优化神经网络的秘密武器

🕗 发布于 2024-09-29 14:51 人工智能

反向传播的概念：

反向传播（Backpropagation）

是深度学习中训练神经网络的核心算法。它通过有效计算损失函数相对于模型参数的梯度，使得模型能够通过梯度下降等优化方法逐步调整参数，从而最小化损失函数，提升模型性能。

反向传播定义分析

反向传播是神经网络中的一种算法，用于计算损失函数相对于每个模型参数的梯度。通过这些梯度，优化算法能够更新模型参数，使损失函数的值逐渐减小。反向传播本质上是应用链式法则的一个过程，它通过从输出层到输入层逐层反向传播误差，计算每一层参数的梯度。

核心目的：通过计算梯度来更新神经网络的参数，使得模型预测值与实际值之间的误差（由损失函数表示）最小化。
关键操作：使用链式法则计算损失函数关于每个参数的偏导数（即梯度）。

反向传播的原理

反向传播的核心原理是链式法则，这是计算复合函数导数的一种方法。神经网络的前向传播可以看作是复合函数的多次嵌套，反向传播则是计算这些复合函数对每个参数的导数。

1. 前向传播（Forward Pass）

在前向传播过程中，输入数据通过网络的各层进行计算，逐层产生输出，最终得到预测值。基于预测值和实际标签 y ，计算损失函数。

例如，对于一个两层神经网络：
- 输入层： x
- 第一层的输出：
- 激活后的输出：
- 第二层的输出：
- 最终输出：
- 损失函数：

2. 反向传播（Backward Pass）

在反向传播过程中，从输出层开始，逐层向输入层反向传播误差，并根据链式法则计算每一层参数的梯度。

- 对于每一层，计算损失函数对输出的偏导数。
- 利用链式法则，逐层计算损失函数对每个参数的梯度。

例如，对于第二层的权重和偏置：

其中，是误差项。

对于第一层的权重和偏置：

其中，。

3. 参数更新

计算得到的梯度用于更新神经网络的参数，通常使用梯度下降算法：

三、反向传播的本质

本质上，反向传播是链式法则在神经网络训练中的应用。它利用梯度信息来调整网络的参数，以最小化损失函数。这一过程能够高效地计算复杂网络中每个参数的导数，确保模型能够正确更新参数，从而优化其预测能力。

1. 本质理解

- 链式法则的应用：反向传播通过链式法则，从输出层反向计算每层的梯度，确保每个参数的更新都沿着损失函数减少的方向进行。
- 误差传播：反向传播通过逐层传递误差（即梯度），将输出层的误差逐渐分解到每个参数上，使得所有参数都能为减少损失函数做出贡献。

2. 反向传播的效率

- 反向传播算法通过动态规划的思想避免了重复计算，使得计算梯度的效率非常高。与通过数值差分方法计算梯度相比，反向传播在计算速度和内存使用上都具有显著优势。

四、举例

(1) 反向传播在简单线性回归问题中的应用

我们通过一个具体的例子来展示反向传播和梯度下降的工作原理，包括如何通过梯度计算来更新模型参数，从而减少损失函数的值。

假设我们有一个简单的线性模型：

其中：
- w 是模型的权重。
- b 是模型的偏置。
- x 是输入值。
- y 是模型的预测输出。

我们要通过反向传播和梯度下降来优化参数 w 和 b ，使得模型的预测输出 y 更加接近实际的目标值。

一、假设初始条件

假设我们有以下数据点：

- 输入 x = 2
- 目标输出

我们从以下初始参数开始：
- 初始权重 w = 0.5
- 初始偏置 b = 0.5
- 学习率

二、前向传播（Forward Pass）

首先，通过前向传播计算模型的预测输出 y 和损失函数的值。我们使用均方误差（MSE）作为损失函数：

计算模型的预测输出 y ：

然后，计算损失函数的值：

三、反向传播（Backward Pass）

接下来，通过反向传播计算损失函数相对于每个参数的梯度。我们需要计算。

对于权重 w ：

首先计算：

然后计算：

所以为：

对于偏置 b ：

其中，所以：

四、梯度下降（Gradient Descent）

使用梯度下降算法，根据计算得到的梯度更新参数 w 和 b 。更新公式为：

将数值代入公式：

更新权重 w ：

更新偏置 b ：

五、再次进行前向传播

使用更新后的参数 w = 1.0 和 b = 0.75，我们再次进行前向传播计算新的预测输出和损失值。

新的预测输出 y 为：

新的损失函数值 L 为：

六、总结

在这个具体的示例中，通过一次反向传播和梯度下降，模型的权重 w 从 0.5 更新为 1.0，偏置 b 从 0.5 更新为 0.75。更新后，模型的预测输出更接近真实值= 4，损失函数的值从 3.125 减少到 0.78125。

关键点：
- 反向传播 计算出损失函数对模型参数的梯度。
- 梯度下降 利用这些梯度更新模型参数，使得损失函数的值逐步减小。

通过多次迭代（即重复上述过程），模型的参数会逐步调整，最终使得模型的预测值与真实值非常接近，损失函数的值也会趋近于零，从而训练出一个性能良好的模型。

（2）反向传播在简单神经网络中的应用

假设我们有一个简单的两层神经网络，输入 x，输出，真实值 y。损失函数为均方误差（MSE）。

一. 网络结构

- 输入层到隐藏层：
- 权重，偏置
- 输出：
- 激活：

- 隐藏层到输出层：
- 权重，偏置
- 输出：
- 最终输出：

二. 损失函数

三. 反向传播过程

- 计算输出层梯度：

- 计算隐藏层梯度：

- 参数更新：

使用学习率更新参数：

同理更新和。

原文地址：https://blog.csdn.net/m0_74042340/article/details/142444085

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：租界服务器跑深度学习（一）服务器租用
下一篇：SQL：如果字段需要排除某个值但又有空值时，不能直接用“＜＞”或not in

Springboot3保存日志到数据库
请求日志几乎是所有大型企业级项目的必要的模块，请求日志对于我们来说后期在项目运行上线一段时间用于排除异常、请求分流处理、限制流量等。请求日志一般都会记录请求参数、请求地址、请求状态（Status C
阅读更多2024-09-29
11-pg内核之锁管理器（六）死锁检测
每个事务都在等待集合中的另一事务，由于这个集合是一个有限集合，因此一旦在这个等待的链条上产生了环，就会产生死锁。自旋锁和轻量锁属于系统锁，他们目前没有死锁检测机制，只能靠内核开发人员在开发过程中谨慎的
阅读更多2024-09-29
Mysql数据库
什么是连接查询？从一张表中单独查询，称为单表查询。emp表和dept表联合起来查询数据，从emp表中取员工名字，从dept表中取部门名字。这种跨表查询，多张表联合起来查询数据，被称为连接查询。sele
阅读更多2024-09-29
深入剖析list
深入剖析list，并阐述了list和vector容器的区别
阅读更多2024-09-29
每天五分钟深度学习框架pytorch：交叉熵计算时的维度是什么？
上面是分别使用了nn模块，还有functional模块来完成交叉熵损失函数，不同的是nn模块先构建对象，而functional模块可以直接调用。使用CrossEntropyLoss可以直接计算交叉熵，
阅读更多2024-09-29
uni-app如果自定义tabbar实现底部样式有凸起效果，背景带圆角
我们只要改下index.wxml和index. wxs的代码就行了。大部分可以参考这一篇文章。
阅读更多2024-09-29
自動獲取IP地址和寬頻撥號上網的詳細指南
自動獲取IP地址和寬頻撥號上網的詳細指南。
阅读更多2024-09-29
Android常用C++特性之std::function
声明：本文内容生成自ChatGPT，为方便大家了解学习作为引用到其他文章中。是 C++ 标准库中的一个，用于存储、复制、调用任何可以调用的目标（如普通函数、lambda 表达式、函数对象、成员函数等）
阅读更多2024-09-29
ELK-04-skywalking监控SpringCloud服务
skywalking监控SpringCloud服务。基于我之前发布的【自学[vue+SpringCloud]-011-新建SpringCloud工程demo】文章，监控我的SpringCloud-De
阅读更多2024-09-29
车辆冲洗监测摄像机
通过系统布置这种设备并联网监控不同区域的清洗场地，可以实时检测并识别出是否达到清洁标准，并及时提醒工作人员进行二次清理或处理。总体而言，车辆冲洗监测摄像机是一种结合了智能分析技术和监控技术的先进设备，
阅读更多2024-09-29