神经网络反向传播交叉熵计算损失函数对隐藏层加权输入Z1的导数

🕗 发布于 2024-10-15 10:47 机器学习 算法反向传播神经网络 深度学习

本文是交叉熵损失函数为代表的两层神经网络的反向传播量化求导计算公式中的一个公式，单独拿出来做一下解释说明。

公式 8-17 是反向传播过程中，计算损失函数 $L$ 对隐藏层加权输入 $Z_1$ 的导数。这个公式是通过链式法则逐步求导，最终将损失函数对隐藏层激活值、输出层误差等因素关联起来。接下来，我将详细解释这个公式的推导过程以及每个部分的含义。

公式 8-17 的表达式：

$\frac{\partial L}{\partial Z_1} = \frac{\partial L}{\partial a_2} \cdot \frac{\partial a_2}{\partial Z_2} \cdot \frac{\partial Z_2}{\partial a_1} \cdot \frac{\partial a_1}{\partial Z_1} = (a_2 - y) w_2 \sigma'(Z_1) \tag{8-17}$

1. 符号解释

$L$ ：损失函数，通常为交叉熵损失函数。
$Z_1$ ：隐藏层神经元的线性组合，即隐藏层神经元在应用激活函数前的输入值。
$a_1$ ：隐藏层的激活值，通过激活函数 $\sigma(Z_1)$ 计算得到。
$Z_2$ ：输出层的加权和，即输出层神经元在应用激活函数之前的输入值。
$a_2$ ：输出层的激活值，通过激活函数（如 sigmoid）计算得到的预测值。
$w_2$ ：连接隐藏层和输出层的权重。
$y$ ：真实标签。
$\sigma'(Z_1)$ ：隐藏层激活函数 $\sigma(Z_1)$ 的导数，表示激活函数对加权输入 $Z_1$ 的变化率。

2. 推导思路：链式法则的应用

公式 8-17 通过链式法则逐层计算损失函数 $L$ 对隐藏层加权输入 $Z_1$ 的导数。为了推导这一公式，我们需要考虑损失函数是如何通过多个中间变量传递到隐藏层的输入 $Z_1$ 的。

第一步：损失函数对输出层激活值的导数 $\frac{\partial L}{\partial a_2}$

根据公式 8-13，损失函数对输出层激活值 $a_2$ 的导数为：
$\frac{\partial L}{\partial a_2} = a_2 - y$
这是输出层的误差，表示模型预测值与真实标签之间的差异。

第二步：输出层激活值 $a_2$ 对加权和 $Z_2$ 的导数 $\frac{\partial a_2}{\partial Z_2}$

输出层的激活值 $a_2$ 是通过激活函数（例如 sigmoid 函数）从加权和 $Z_2$ 中计算得到的。sigmoid 激活函数的导数为：
$\frac{\partial a_2}{\partial Z_2} = \sigma'(Z_2) = a_2(1 - a_2)$

第三步：输出层加权和 $Z_2$ 对隐藏层激活值 $a_1$ 的导数 $\frac{\partial Z_2}{\partial a_1}$

输出层加权和 $Z_2$ 是通过隐藏层激活值 $a_1$ 及权重 $w_2$ 线性组合得到的，因此：
$\frac{\partial Z_2}{\partial a_1} = w_2$

这是线性组合的基本导数结果，表示输出层加权和 $Z_2$ 对隐藏层激活值 $a_1$ 的变化率等于连接两层的权重 $w_2$ 。

第四步：隐藏层激活值 $a_1$ 对加权输入 $Z_1$ 的导数 $\frac{\partial a_1}{\partial Z_1}$

隐藏层的激活值 $a_1$ 是通过激活函数 $\sigma(Z_1)$ 计算得到的。因此，隐藏层激活值 $a_1$ 对加权输入 $Z_1$ 的导数为：
$\frac{\partial a_1}{\partial Z_1} = \sigma'(Z_1)$

这表示激活函数对输入 $Z_1$ 的变化率。

总结链式法则：

根据链式法则，我们可以将损失函数对隐藏层加权输入 $Z_1$ 的导数写为：
$\frac{\partial L}{\partial Z_1} = \frac{\partial L}{\partial a_2} \cdot \frac{\partial a_2}{\partial Z_2} \cdot \frac{\partial Z_2}{\partial a_1} \cdot \frac{\partial a_1}{\partial Z_1}$

将各部分结果代入上式：
$\frac{\partial L}{\partial Z_1} = (a_2 - y) \cdot w_2 \cdot \sigma'(Z_1)$

这就是公式 8-17 的推导结果。

3. 公式的含义

公式 8-17 表示的是损失函数对隐藏层加权输入 $Z_1$ 的导数。它表明，隐藏层的梯度由以下几部分决定：

输出层的误差 $a_2 - y$ ：这是模型预测结果与真实标签之间的差异，直接决定了模型的改进方向。
输出层的权重 $w_2$ ：这是将隐藏层输出传递到输出层的权重，决定了隐藏层对输出层的影响力。
隐藏层激活函数的导数 $\sigma'(Z_1)$ ：这是激活函数的变化率，反映了隐藏层的输出是如何受到输入变化的影响。

通过这个公式，我们可以知道隐藏层的梯度是如何由输出层的误差反向传播过来的。这个梯度将用于调整隐藏层的权重和偏置，从而使模型的损失函数逐渐减小。

4. 直观理解

隐藏层梯度的计算是反向传播的一个核心步骤。我们通过公式 8-17，将输出层的误差通过输出层的权重传递给隐藏层，然后再乘以隐藏层激活函数的导数，以确定隐藏层的输入应该如何调整。

如果输出层的误差较大，即 $a_2 - y$ 较大，说明模型的预测与真实标签之间的差异较大，隐藏层的输入需要较大调整。
如果输出层的误差较小，即 $a_2 - y$ 较小，说明模型的预测接近真实值，隐藏层的输入只需要微小调整。
激活函数的导数 $\sigma'(Z_1)$ 起到了缩放因子的作用，控制隐藏层的输出对输入变化的敏感性。

5. 在反向传播中的作用

公式 8-17 是反向传播中的关键一步。反向传播的目的是通过损失函数对每个参数的导数（梯度）来更新模型参数。公式 8-17 的结果将用于计算隐藏层的权重和偏置的梯度，从而逐步更新这些参数，使模型的损失函数降低。

6. 总结

公式 8-17 给出了损失函数对隐藏层输入 $Z_1$ 的导数，它是通过链式法则从输出层的误差反向传播到隐藏层的。这个梯度结合了输出层的误差、输出层的权重以及隐藏层激活函数的导数，是反向传播过程中非常重要的一步。通过这个梯度，模型可以逐步调整隐藏层的输入，从而优化模型的整体表现。

原文地址：https://blog.csdn.net/u013172930/article/details/142930648

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：C++面试速通宝典——26
下一篇：STM32—PWR电源控制

使用 `fork()` 和 `waitpid()` 进行进程管理的详解
fork & wait &waitpid用法 & wait waitpid区别
阅读更多2024-10-15
Centos7 搭建logstash
官网：https://www.elastic.co/guide/en/logstash/current/input-plugins.html。事件源可以是从stdin屏幕输入读取，可以从file指定的
阅读更多2024-10-15
面试题tcc补偿事务
‌ TCC（‌Try/‌Confirm/‌Cancel）编程模式的核心思想是：针对每个分支事务操作，都要向全局事务发起方注册Try、Confirm和Cancel三个操作，具体这些操作由我们自己根据业务
阅读更多2024-10-15
访问者模式
访问者模式（Visitor Pattern）是一种行为设计模式，它允许你将数据操作与数据结构分离。ObjectStructure（对象结构）：能够枚举其所有元素，并可以允许访问者访问这些元素。通常是一
阅读更多2024-10-15
深入探讨Python网络爬虫的实现与应用
随着大数据和人工智能的发展，网络爬虫技术的重要性将愈加凸显，掌握这一技能将为数据驱动决策和创新提供更为广阔的视野。Python凭借其简洁的语法和强大的库生态系统，成为开发网络爬虫的理想语言。Scrap
阅读更多2024-10-15
vue父子组件传参的方法
父组件中定义需要传递给子组件的数据。
阅读更多2024-10-15
充电宝哪个牌子性价比高？2024实测分享五款热销高质量产品！
这款移动电源采用白色的外观，看起来非常优雅大方，使用起来也很方便，长按电源键 1 秒即可开机，长按 10 秒即可关机，这款电源容量为10000mAh，可为您的手机、平板电脑和其他电子设备提供持久的续航
阅读更多2024-10-15
C++：从小白到基础（一）
C++是基于C进行开发的，不仅有着超高的运行效率，还有着诸多被封装好的库，这大大加强了C++的开发效率。现在C++主要运用在游戏开发，嵌入式系统开发等领域。以下是C++的关键字关于具体介绍请看以下链接
阅读更多2024-10-15
【C++】——AVL树
插入数据要更新平衡因子，如果高度差大于一，就需要通过旋转平衡。和二叉搜索树相似，AVL树多了一个平衡因子。AVL树是在平衡二叉树的基础上改进的。
阅读更多2024-10-15
【C】数据类型与变量（2）
C语言中为了方便运算，提供了一系列操作符，其中有一组操作符叫:算术操作符。,这些操作符都是:操作符也被叫做运算符，是不同的翻译，意思是一样的。
阅读更多2024-10-15

神经网络反向传播交叉熵 计算损失函数对隐藏层加权输入Z1的导数