神经网络反向传播交叉熵计算损失函数对隐藏层权重w1的梯度

🕗 发布于 2024-10-15 09:44 机器学习 算法反向传播神经网络 深度学习

本文是交叉熵损失函数为代表的两层神经网络的反向传播量化求导计算公式中的一个公式，单独拿出来做一下解释说明。

公式 8-18 是反向传播算法中的一个重要步骤，它计算的是损失函数 $L$ 对隐藏层的权重 $w_1$ 的梯度。这一步是通过链式法则，逐层计算出损失函数对权重的影响，并最终用于更新权重 $w_1$ 。下面我将详细解释公式 8-18 的推导过程以及每一部分的含义。

公式 8-18 的表达式

$\frac{\partial L}{\partial w_1} = \frac{\partial L}{\partial a_2} \cdot \frac{\partial a_2}{\partial Z_2} \cdot \frac{\partial Z_2}{\partial a_1} \cdot \frac{\partial a_1}{\partial Z_1} \cdot \frac{\partial Z_1}{\partial w_1} = (a_2 - y) w_2 \sigma'(Z_1) x \tag{8-18}$

1. 符号解释

$L$ ：损失函数，通常为交叉熵损失函数。
$w_1$ ：隐藏层的权重矩阵，它连接输入层和隐藏层。
$Z_1$ ：隐藏层的加权和（即隐藏层神经元的输入值）。
$a_1$ ：隐藏层的激活值，是通过激活函数 $\sigma(Z_1)$ 计算得到的。
$Z_2$ ：输出层的加权和（即输出层神经元的输入值）。
$a_2$ ：输出层的激活值，是通过激活函数 $\sigma(Z_2)$ 计算得到的。
$w_2$ ：连接隐藏层和输出层的权重。
$y$ ：真实标签。
$x$ ：输入层的输入值，即特征数据。
$\sigma'(Z_1)$ ：隐藏层激活函数的导数，表示激活函数对输入 $Z_1$ 的变化率。

2. 推导过程：链式法则的应用

为了推导公式 8-18，我们应用链式法则，逐步计算损失函数对隐藏层权重 $w_1$ 的导数。

第一步：损失函数对输出层激活值的导数 $\frac{\partial L}{\partial a_2}$

根据公式 8-13，损失函数对输出层激活值 $a_2$ 的导数为：
$\frac{\partial L}{\partial a_2} = a_2 - y$

这个导数表示输出层的误差，即模型预测值 $a_2$ 与真实标签 $y$ 之间的差异。

第二步：输出层激活值对加权和 $Z_2$ 的导数 $\frac{\partial a_2}{\partial Z_2}$

输出层的激活值 $a_2$ 是通过激活函数（如 sigmoid 函数）从加权和 $Z_2$ 中计算得到的。因此，输出层激活值对加权和 $Z_2$ 的导数为：
$\frac{\partial a_2}{\partial Z_2} = \sigma'(Z_2)$

其中，sigmoid 激活函数的导数为：
$\sigma'(Z_2) = a_2(1 - a_2)$

第三步：输出层加权和 $Z_2$ 对隐藏层激活值 $a_1$ 的导数 $\frac{\partial Z_2}{\partial a_1}$

输出层的加权和 $Z_2$ 是通过隐藏层的激活值 $a_1$ 及其对应的权重 $w_2$ 线性组合得到的，因此：
$\frac{\partial Z_2}{\partial a_1} = w_2$
这个导数表示输出层的加权和 $Z_2$ 对隐藏层激活值 $a_1$ 的变化率，等于连接隐藏层和输出层的权重 $w_2$ 。

第四步：隐藏层激活值 $a_1$ 对加权和 $Z_1$ 的导数 $\frac{\partial a_1}{\partial Z_1}$

隐藏层的激活值 $a_1$ 是通过激活函数 $\sigma(Z_1)$ 计算得到的，因此：
$\frac{\partial a_1}{\partial Z_1} = \sigma'(Z_1)$
这表示激活函数对隐藏层输入 $Z_1$ 的变化率。

第五步：隐藏层加权和 $Z_1$ 对权重 $w_1$ 的导数 $\frac{\partial Z_1}{\partial w_1}$

隐藏层的加权和 $Z_1$ 是通过输入层的输入 $x$ 与隐藏层的权重 $w_1$ 线性组合得到的，即：
$Z_1 = w_1 \cdot x + b_1$

因此， $Z_1$ 对权重 $w_1$ 的导数为：
$\frac{\partial Z_1}{\partial w_1} = x$

这个导数表示隐藏层输入 $Z_1$ 对权重 $w_1$ 的变化率，等于输入层的输入值 $x$ 。

3. 结合链式法则

现在我们可以将这些部分结合起来，得到损失函数 $L$ 对隐藏层权重 $w_1$ 的导数：
$\frac{\partial L}{\partial w_1} = \frac{\partial L}{\partial a_2} \cdot \frac{\partial a_2}{\partial Z_2} \cdot \frac{\partial Z_2}{\partial a_1} \cdot \frac{\partial a_1}{\partial Z_1} \cdot \frac{\partial Z_1}{\partial w_1}$

将每个部分的结果代入，得到：
$\frac{\partial L}{\partial w_1} = (a_2 - y) \cdot w_2 \cdot \sigma'(Z_1) \cdot x$

这就是公式 8-18 的推导结果。

4. 公式的含义

公式 8-18 表示的是损失函数 $L$ 对隐藏层权重 $w_1$ 的导数。这个梯度用于调整隐藏层的权重，以使损失函数最小化。公式中的各个部分表示：

$a_2 - y$ ：这是输出层的误差，反映了模型预测值与真实标签之间的差异。
$w_2$ ：这是连接隐藏层和输出层的权重，反映了隐藏层对输出层的影响。
$\sigma'(Z_1)$ ：这是隐藏层激活函数的导数，反映了激活函数对输入变化的敏感性。
$x$ ：这是输入层的输入，反映了输入数据对隐藏层权重的影响。

5. 直观理解

从公式 8-18 可以看出，隐藏层权重的更新不仅依赖于输出层的误差，还依赖于输出层权重 $w_2$ 、隐藏层激活函数的导数 $\sigma'(Z_1)$ ，以及输入层的输入 $x$ 。

如果输出层误差较大，即 $a_2 - y$ 较大，说明模型的预测与真实值之间的差异较大，隐藏层权重需要较大调整。
如果输出层误差较小，即 $a_2 - y$ 较小，说明模型的预测较为准确，隐藏层权重只需要小幅调整。
输入层的值 $x$ 也会影响隐藏层的权重更新。输入值越大，对应的权重更新幅度也会越大。

通过这个公式，反向传播算法可以逐步更新隐藏层的权重 $w_1$ ，从而优化模型的整体性能。

6. 在反向传播中的作用

公式 8-18 是反向传播中的重要步骤。反向传播的目标是通过损失函数对每个参数的导数（梯度）来更新模型的权重和偏置，从而最小化损失函数。公式 8-18 计算了隐藏层权重的梯度，用于更新隐藏层的权重。

7. 总结

公式 8-18 给出了损失函数对隐藏层权重 $w_1$ 的梯度。这个梯度通过链式法则计算，它结合了输出层误差、输出层权重、激活函数的导数以及输入值。通过这个梯度，反向传播算法能够逐步调整隐藏层的权重，从而优化模型的损失函数，使模型的预测性能不断提高。

原文地址：https://blog.csdn.net/u013172930/article/details/142931795

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：mysql学习教程，从入门到精通，SQL导入数据（43）
下一篇：diff 算法

leetcode289:生命游戏
根据，简称为，是英国数学家约翰·何顿·康威在 1970 年发明的细胞自动机。给定一个包含m × n个格子的面板，每一个格子都可以看成是一个细胞。每个细胞都具有一个初始状态：1即为（live），或0即为
阅读更多2024-10-20
MongoDB数据恢复
注意：两个MongoDB的版本要一致，本文使用的是mongo:4.2.24。先把K8S上面的MongoDB 容器停止（可以把副本改成0）。1、将容器挂载MongoDB的数据目录备份到本地。经常是数据文
阅读更多2024-10-20
C#中实现事务
C#中实现事务
阅读更多2024-10-20
【LeetCode每日一题】——560.和为 K 的子数组
给你一个整数数组 nums 和一个整数 k ，请你统计并返回该数组中和为 k 的子数组的个数。子数组是数组中元素的连续非空序列。
阅读更多2024-10-20
「漏洞复现」满客宝智慧食堂系统 selectUserByOrgId 未授权访问漏洞
请勿利用文章内的相关技术从事非法测试，由于传播、利用此文所提供的信息而造成的任何直接或者间接的后果及损失，均由使用者本人负责，作者不为此承担任何责任。工具来自网络，安全性自测，如有侵权请联系删除。本次
阅读更多2024-10-20
React面试题目（从基本到高级）
React前端面试常见题目涵盖了React的基础概念、组件、状态管理、生命周期、性能优化等多个方面。
阅读更多2024-10-20
12.个人博客系统（Java项目基于spring和vue）
1 在校学习的学生，可用于日常学习使用或是毕业设计使用 2 毕业一到两年的开发人员，用于锻炼自己的独立功能模块设计能力，增强代码编写能力。 3 亦可以部署为商化项目使用。 4 需要完整资料及源码
阅读更多2024-10-20
YoloV8改进策略：注意力改进|DeBiFormer，可变形双级路由注意力|引入DeBiLevelRoutingAttention注意力模块（全网首发）
本次改进的核心在于将DeBiLevelRoutingAttention模块嵌入到YoloV8的主干网络中，具体位置是在SPPF（Spatial Pyramid Pooling Fast）模块之后。这一
阅读更多2024-10-20
word取消自动单词首字母大写
情况说明：在word输入单词后首字母会自动变成大写取消单词首字母大写步骤：（1）点击菜单栏文件（2）点击“更多”——>“选项”（3）点击“校对”——>“自动更正选项”（4）取消“句首字母大
阅读更多2024-10-20
web前端网页用户注册页面
【代码】web前端网页用户注册页面。
阅读更多2024-10-20

神经网络反向传播交叉熵 计算损失函数对隐藏层权重w1的梯度