【AI知识点】反向传播（Backpropagation）

🕗 发布于 2024-10-08 23:52 人工智能 机器学习 深度学习 神经网络损失函数

反向传播（Backpropagation） 是训练神经网络的核心算法，它通过反向逐层计算损失函数对每个权重的梯度，来反向逐层更新网络的权重，从而最小化损失函数。

一、反向传播的基本概念

1. 前向传播（Forward Propagation）

在前向传播中，输入数据从输入层通过隐藏层传递到输出层。网络通过层与层之间的连接（即权重）来计算每个节点的输出，最终生成网络的预测结果。

2. 计算损失（Compute Loss）

将网络的预测输出与真实值进行比较，计算损失函数（如均方误差），用来衡量网络的预测输出与真实值的差距。

3. 反向传播（Backward Propagation）

反向传播的过程主要由链式法则驱动。它通过逐层计算误差对权重的偏导数（梯度），从输出层反向传递到隐藏层，再传递到输入层（与前向传播顺序相反），以反向更新每层的权重，减少预测误差。

前向传播相当于将输入数据从输入层逐步传递到输出层，得到预测结果。
反向传播相当于从输出层开始反向传递误差，更新每一层的权重，使得网络在下次预测时能够减少误差。

4. 权重更新（Weights Update）

使用优化算法（如梯度下降）根据梯度更新权重。使得下一次前向传播时损失函数值减小。

二、反向传播的数学推导

对于一个简单的神经网络，损失函数 $L$ 是关于网络输出 $y$ 和真实值 $t$ 的函数，而网络输出 $y$ 又是关于输入 $x$ 和权重 $w$ 的函数。

通过链式法则，损失函数对权重的梯度可以表示为：

$\frac{\partial L}{\partial w} = \frac{\partial L}{\partial y} \cdot \frac{\partial y}{\partial w}$

三、反向传播的图示

在这里插入图片描述
图片来源：https://ai.stackexchange.com/questions/31566/different-ways-to-calculate-backpropagation-derivatives-any-difference

前向传播（蓝色箭头）负责计算输出预测值（Out）和误差（Err）。
反向传播（绿色和红色箭头）从输出误差（Err）开始，将误差逐层传播到隐藏层（ $a$ ）和输入层（X），计算每个权重（W）的梯度，用于后续的权重更新。

四、反向传播的简单计算示例

假设我们有一个简单的两层神经网络：

在这里插入图片描述

输入层（x）：一个节点，输入值为 $x$ 。
隐藏层（a）：一个节点，激活函数为 Sigmoid 函数。
输出层（y）：一个节点，激活函数为线性函数，输出值为 $y$ 。

网络的权重：

输入层到隐藏层的权重： $w_1$ 。
隐藏层到输出层的权重： $w_2$ 。

给定以下初始条件：

输入 $x = 1$ 。
目标输出 $t = 0$ 。
初始权重 $w_1 = 0.5$ ， $w_2 = 0.5$ 。
学习率 $\eta = 0.1$ 。

步骤1：前向传播

计算隐藏层的输入和输出

$w_1 \cdot x = 0.5 \cdot 1 = 0.5$

隐藏层的激活输出（使用 Sigmoid 函数）：

$\sigma(z) = \frac{1}{1 + e^{-z}} = \frac{1}{1 + e^{-0.5}} \approx 0.6225$

计算输出层的输入和输出

$w_2 \cdot a = 0.5 \cdot 0.6225 = 0.3112$

步骤2：计算损失

使用均方误差（MSE）作为损失函数：

$\frac{1}{2}(y - t)^2 = \frac{1}{2}(0.3112 - 0)^2 \approx 0.0484$

步骤3：反向传播

计算输出层对权重 $w_2$ 的梯度

$\frac{\partial L}{\partial w_2} = \frac{\partial L}{\partial y} \cdot \frac{\partial y}{\partial w_2}$

计算各部分：

损失函数对输出 $y$ 的导数：

$\frac{\partial L}{\partial y} = y - t = 0.3112 - 0 = 0.3112$

输出 $y$ 对权重 $w_2$ 的导数：

$\frac{\partial y}{\partial w_2} = a = 0.6225$

合并计算梯度：

$\frac{\partial L}{\partial w_2} = 0.3112 \times 0.6225 \approx 0.1938$

计算隐藏层对权重 $w_1$ 的梯度

$\frac{\partial L}{\partial w_1} = \frac{\partial L}{\partial a} \cdot \frac{\partial a}{\partial z} \cdot \frac{\partial z}{\partial w_1}$

计算各部分：

损失函数对隐藏层输出 $a$ 的导数：

$\frac{\partial L}{\partial a} = \frac{\partial L}{\partial y} \cdot \frac{\partial y}{\partial a} = (y - t) \cdot w_2 = 0.3112 \cdot 0.5 = 0.1556$

隐藏层输出 $a$ 对输入 $z$ 的导数（Sigmoid 函数导数）：

$\frac{\partial a}{\partial z} = a (1 - a) = 0.6225 \cdot (1 - 0.6225) \approx 0.2350$

输入 $z$ 对权重 $w_1$ 的导数：

$\frac{\partial z}{\partial w_1} = x = 1$

合并计算梯度：

$\frac{\partial L}{\partial w_1} = 0.1556 \times 0.2350 \times 1 \approx 0.0365$

步骤4：更新权重

使用梯度下降法更新权重：

更新权重 $w_2$ ：

$w_2^{\text{new}} = w_2 - \eta \cdot \frac{\partial L}{\partial w_2} = 0.5 - 0.1 \times 0.1938 \approx 0.4806$

更新权重 $w_1$ ：

$w_1^{\text{new}} = w_1 - \eta \cdot \frac{\partial L}{\partial w_1} = 0.5 - 0.1 \times 0.0365 \approx 0.4963$

步骤5：验证更新后的网络

再次进行前向传播，计算新的输出和损失。

新的隐藏层输入和输出

$w_1^{\text{new}} \cdot x = 0.4963 \cdot 1 = 0.4963$

$\sigma(z') = \frac{1}{1 + e^{-0.4963}} \approx 0.6216$

新的输出层输出

$w_2^{\text{new}} \cdot a' = 0.4806 \cdot 0.6216 \approx 0.2988$

新的损失

$\frac{1}{2}(y' - t)^2 = \frac{1}{2}(0.2988 - 0)^2 \approx 0.0447$

结果分析

更新权重后，损失从 0.0484 减少到 0.0447，说明网络朝着最小化损失的方向更新，模型性能有所提升。

原文地址：https://blog.csdn.net/weixin_43221845/article/details/142744113

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：2024四大剪辑软件推荐及下载地址介绍！
下一篇：如何使用Immersity AI将图片转换成3D效果视频

【LeetCode】动态规划—115. 不同的子序列（附完整Python/C++代码）
在字符串处理的领域，不同子序列问题是一个经典的挑战，涉及到如何计算一个字符串的所有不同子序列以匹配另一个字符串。通过动态规划方法，我们能够有效地找出字符串之间的匹配数量，为更复杂的字符串问题提供解决方
阅读更多2024-10-09
银河麒麟V10安装ToDesk远程控制
【代码】银河麒麟V10安装ToDesk远程控制。
阅读更多2024-10-09
分享几个国外SSL证书提供商网站
最重要的是，Comodo被认证为 SSL 证书的畅销产品。如果您的域下有多个服务器，Comodo允许您在所需的任意数量的服务器上使用相同的SSL证书。通过快速简单的验证流程，您可以专注于网站的其他方面
阅读更多2024-10-09
20.Nginx动静分离原理与案例实现
Nginx动静分离原理与案例实现
阅读更多2024-10-09
【C++ 11】nullptr 空指针
【代码】【C++ 11】nullptr 空指针。
阅读更多2024-10-09
D开头的词根词缀:dem+di+de+dys+dia+dis
人民－（２）dem(o)democracy[demo人民，cracy统治；"人民统治"→人民做主→]民主；民主政治，民主政体；民主主义democrat[见上，crat主张…统治的人
阅读更多2024-10-09
ES postman操作全量修改，局部修改，删除
上图是只修改id 为1001数据的title为华为手机。只修改指定的需求的内容的请求方式。修改需要调用的url 地址是。删除一个指定id的文档信息。执行请求之后提示已经删除了。post方式就是局部修改
阅读更多2024-10-09
【C#生态园】提升C#图像处理与压缩效率：六款库全面比较
本文将介绍六个用于C#的图像处理和压缩库，分别是ImageProcessor、SixLabors.ImageSharp、ImageMagick、SkiaSharp、OpenCvSharp和Magick
阅读更多2024-10-09
客户端埋点SDK及其文档推荐
客户端埋点SDK及其文档推荐。
阅读更多2024-10-09
uniapp顶部提示栏实现
2.通过占位与fixed使显示内容位置固定。用途：用于展示较短系统通知。并给予文字显示滚动效果。3.设置显示效果与关闭。
阅读更多2024-10-09