自学内容网 自学内容网

探索反向传播:深度学习中优化神经网络的秘密武器

反向传播的概念:

反向传播(Backpropagation)

是深度学习中训练神经网络的核心算法。它通过有效计算损失函数相对于模型参数的梯度,使得模型能够通过梯度下降等优化方法逐步调整参数,从而最小化损失函数,提升模型性能。

反向传播定义分析

反向传播是神经网络中的一种算法,用于计算损失函数相对于每个模型参数的梯度。通过这些梯度,优化算法能够更新模型参数,使损失函数的值逐渐减小。反向传播本质上是应用链式法则的一个过程,它通过从输出层到输入层逐层反向传播误差,计算每一层参数的梯度。

  • 核心目的:通过计算梯度来更新神经网络的参数,使得模型预测值与实际值之间的误差(由损失函数表示)最小化。
  • 关键操作:使用链式法则计算损失函数关于每个参数的偏导数(即梯度)。

反向传播的原理

反向传播的核心原理是链式法则,这是计算复合函数导数的一种方法。神经网络的前向传播可以看作是复合函数的多次嵌套,反向传播则是计算这些复合函数对每个参数的导数。

 1. 前向传播(Forward Pass)

在前向传播过程中,输入数据通过网络的各层进行计算,逐层产生输出,最终得到预测值 3a7a89e08af242ba956c928aef7a0a95.png 。基于预测值和实际标签 y ,计算损失函数344bc98ebf4d475b9cf6ec8f7dae86bc.png

例如,对于一个两层神经网络:
- 输入层: x
- 第一层的输出:2a2c4e96706342eea6166504d6b059af.png
- 激活后的输出:e914676547854f6283d833a37dc6f48a.png
- 第二层的输出: 36782f35507541078baf9d0eaf62e4a2.png
- 最终输出: 7a2e94c8bf75405588f704edd2cb8652.png
- 损失函数:9bc416af094541efaa0d5a2012c8af9f.png

 2. 反向传播(Backward Pass)

在反向传播过程中,从输出层开始,逐层向输入层反向传播误差,并根据链式法则计算每一层参数的梯度。

- 对于每一层,计算损失函数对输出的偏导数。
- 利用链式法则,逐层计算损失函数对每个参数的梯度。

例如,对于第二层的权重e7a0a74166194fe799d6b5bcf44ca0c7.png和偏置 4be9c8aed0064979a23c8a7635a64d0a.png

800c09483c124033a6f25da74aa5eec0.png

其中,0c3e776fc5f84897a531343561ea20e6.png是误差项。

对于第一层的权重 ca2f830681584ec6afefdb12cab057fb.png和偏置bf5edbf7160c404eb721534ca3e0a89f.png

c3748fb1847e4ad2b1644222c36207b4.png

其中,35af28e34383454db8053710ec6763fb.png

3. 参数更新

计算得到的梯度用于更新神经网络的参数,通常使用梯度下降算法:

35221329c3404a9eac47ef5e3498666b.png

 三、反向传播的本质

本质上,反向传播是链式法则在神经网络训练中的应用。它利用梯度信息来调整网络的参数,以最小化损失函数。这一过程能够高效地计算复杂网络中每个参数的导数,确保模型能够正确更新参数,从而优化其预测能力。

1. 本质理解

- 链式法则的应用:反向传播通过链式法则,从输出层反向计算每层的梯度,确保每个参数的更新都沿着损失函数减少的方向进行。
- 误差传播:反向传播通过逐层传递误差(即梯度),将输出层的误差逐渐分解到每个参数上,使得所有参数都能为减少损失函数做出贡献。

2. 反向传播的效率

- 反向传播算法通过动态规划的思想避免了重复计算,使得计算梯度的效率非常高。与通过数值差分方法计算梯度相比,反向传播在计算速度和内存使用上都具有显著优势。

四、举例

(1) 反向传播在简单线性回归问题中的应用

我们通过一个具体的例子来展示反向传播和梯度下降的工作原理,包括如何通过梯度计算来更新模型参数,从而减少损失函数的值。

假设我们有一个简单的线性模型:

113a2cef40ee4ea5bf7991312925ea79.png

其中:
-  w 是模型的权重。
-  b 是模型的偏置。
-  x  是输入值。
-  y 是模型的预测输出。

我们要通过反向传播和梯度下降来优化参数 w 和 b ,使得模型的预测输出 y 更加接近实际的目标值c0055829a483486aa72a465bdddbb5b8.png

一、假设初始条件

假设我们有以下数据点:

- 输入 x = 2 
- 目标输出 b64d9a6d34f64ed89791c90271a91ad0.png

我们从以下初始参数开始:
- 初始权重 w = 0.5 
- 初始偏置 b = 0.5 
- 学习率 94a74a26ef35404c938e2e709c2efa99.png

 二、前向传播(Forward Pass)

首先,通过前向传播计算模型的预测输出 y 和损失函数的值。我们使用均方误差(MSE)作为损失函数:

7242cabe6ba74cd288533d0a0c125454.png

计算模型的预测输出 y :

0b2a0f3fe5fb47728d56d4c89c06be69.png

然后,计算损失函数的值:

6215c71f3295484bbb82e62ada7535b9.png

三、反向传播(Backward Pass)

接下来,通过反向传播计算损失函数相对于每个参数的梯度。我们需要计算01dda50623de46f5bf60d277fa38d11c.png

对于权重 w :

c485a908edbf49468451d3755a7261a6.png

首先计算 a186187aa590404e99956f5d1347c46e.png

979c6547894f4e0095bb94cc57ac6bdc.png

然后计算 d4c3c0b3b39b40eea1ee6550901ff384.png

96c790b7a3b343e887b1bf47fd6b7713.png

所以 bbe5c38e547e49f09506959fecec7775.png为:

b396545e8f4a4c41a97899a3a364ee28.png

对于偏置 b :

01f1157a6751415eaa73a9caf5ac7076.png

其中354b0d26e6894a86b409add10b2f8904.png,所以:

56a716c681554e21845c5ab1c8d2dbe0.png

四、梯度下降(Gradient Descent)

使用梯度下降算法,根据计算得到的梯度更新参数 w 和 b 。更新公式为:

143481c30b7f4a38b5b0e6af7481a93d.png

将数值代入公式:

更新权重 w :

e540d61a31884fb7802a0af53048f002.png

更新偏置 b :

ebd42ff5bd4148618f2af3dfe4bafcbb.png

五、再次进行前向传播

使用更新后的参数 w = 1.0 和 b = 0.75,我们再次进行前向传播计算新的预测输出和损失值。

新的预测输出 y 为:

c768ed2d92b54bd8a5bb3528ad6f06ef.png

新的损失函数值 L 为:

8779f349305945e8a99685c642507d0e.png

 六、总结

在这个具体的示例中,通过一次反向传播和梯度下降,模型的权重 w 从 0.5 更新为 1.0,偏置 b 从 0.5 更新为 0.75。更新后,模型的预测输出更接近真实值33b70a4ba355496ab104de1fbb6b4fd8.png= 4,损失函数的值从 3.125 减少到 0.78125。

关键点:
- 反向传播 计算出损失函数对模型参数的梯度。
- 梯度下降 利用这些梯度更新模型参数,使得损失函数的值逐步减小。

通过多次迭代(即重复上述过程),模型的参数会逐步调整,最终使得模型的预测值与真实值非常接近,损失函数的值也会趋近于零,从而训练出一个性能良好的模型。

(2)反向传播在简单神经网络中的应用

假设我们有一个简单的两层神经网络,输入 x,输出553fea331bb243acaf2285c2cc87d258.png,真实值 y。损失函数为均方误差(MSE)。

一. 网络结构

- 输入层到隐藏层:
  - 权重5db5dfaaf6aa486e960ae06aece378ff.png,偏置 8cd0b20d411141869e66bc30adb5d47b.png
  - 输出: 8fd83bf2131e464b8308da62fa5b1c51.png
  - 激活: 8cf654a1b19f4bd586b71d44aadc00c4.png

- 隐藏层到输出层:
  - 权重 435287c74170497aab110379dbedb64c.png,偏置2f064aa321f0463a9d95c8fdfa8cffa0.png
  - 输出: a63834a2388643369069bca51c822365.png
  - 最终输出:c3028df160ea41689267d408176b6296.png

二. 损失函数

2725f2bd16e84f56a28859bfbc593ea8.png

三. 反向传播过程

- 计算输出层梯度:

2f14e0b6f3cc4cbe8a5f01b5257c002a.png

- 计算隐藏层梯度:

fcf0db29269740fe8d6946a257da0de5.png

- 参数更新:

  使用学习率e8ff66376966432b8c24d69b14e22587.png更新参数:
  

2bbbfc832c464697b739945afff383bf.png
  
  同理更新8cbedf7822b3417fa0bfcea1d66022ac.pnge4fccfb2563d455e8f83282fc34584c0.png

 

 


原文地址:https://blog.csdn.net/m0_74042340/article/details/142444085

免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!