【机器学习300问】71、神经网络中前向传播和反向传播是什么？

🕗 发布于 2024-04-17 10:38 神经网络 人工智能 深度学习

我之前写了一篇有关计算图如何帮助人们理解反向传播的文章，那为什么我还要写这篇文章呢？是因为我又学习了一个新的方法来可视化前向传播和反向传播，我想把两种方法总结在一起，方便我自己后续的复习。对了顺便附上往期文章的链接方便回顾：

【机器学习300问】59、计算图是如何帮助人们理解反向传播的？http://t.csdnimg.cn/QMYZt

一、用计算图来理解

再用小孩儿做数学题的例子来为大家介绍什么是前向传播（又叫正向传播），什么是反向传播。假设你在教一个小孩儿，计算 $(a+b)\times c$ 。

（1）前向传播

就像是小孩按照步骤一步步计算题目。比如说他要计算 (a+b) × c，他先算出 a+b 的结果，然后再把这个结果乘以 c 得到最后的答案。

前向传播是神经网络中从输入层到输出层的计算过程。在神经网络中，输入层接收原始数据，然后通过隐藏层的处理，最终由输出层产生预测结果。每个神经元都会根据前一层神经元的输出和自身的权重进行计算，然后将结果传递给下一层。

（2）损失函数

相当于你用来判断小孩答案对错的标准，本质是个衡量错误程度的“分数”。如果他的答案离正确答案差很多，那么这个分数就会很高，表示他错的很离谱。反之，若他的损失分数很小，说明他的答案很接近正确答案。

损失函数是用来衡量神经网络预测结果与实际结果之间差距的指标。损失函数越小，说明神经网络的预测结果越接近实际结果。在训练过程中，我们的目标就是最小化损失函数。

（3）反向传播

反向传播类似你指导小孩如何改正错误的过程。假设他最后的答案错了，你会告诉他：“你计算的最后一步有问题，你需要知道是因为 c 值没乘对还是前面 a+b 的结果就不对。”于是你从最后一个步骤开始，告诉小孩每一步对他最后答案的影响有多大（也就是计算梯度），这样他才能有针对性地调整自己的计算步骤，以便下次做得更好。

反向传播是神经网络中根据损失函数的梯度信息调整权重的过程。在前向传播得到预测结果并计算损失函数后，我们需要知道每个权重对损失函数的影响程度，也就是梯度。通过反向传播算法，我们可以从输出层开始，逐层计算每个神经元的梯度，并根据梯度信息更新权重。

二、用神经网络块来理解

让我们首先来画一个神经网络：

我先用语言来描述一下这个神经网络，上图是一个四层神经网络，有三个隐藏层。我们用 $L$ 来表示隐藏层总个数，显然 $L=4$ 。输入层的索引为0，故三个隐藏层的神经元个数 $n^{[l]}$ 分别表示为 $n^{[1]}=n^{[2]}=n^{[3]}=4$ 。而输入层的特征数表示为 $n^{[0]}=n_x=4$ 。而每层都用 $a^{[l]}$ 来表示激活函数输出的结果。输入激活函数中权重和偏置表示为：

$\left\{\begin{matrix} z^{[l]}=W^{[l]}a^{[l-1]}+b^{[l]} \\ a^{[l]}=g^{[l]}(z^{[l]}) \end{matrix}\right.$

（1）神经网络块

在第 $l$ 层你有参数 $W^{[l]}$ 和 $b^{[l]}$ ，正向传播里有输入的激活函数，输入是前一层 $a^{[l-1]}$ ，输出是 $a^{[l]}$ ，我们之前讲过 $z^{[l]}=W^{[l]}a^{[l-1]}+b^{[l]},a^{[l]}=g^{[l]}(z^{[l]})$ ,，那么上图就是可视化展示出如何从输入 $a^{[l-1]}$ 走到输出 $a^{[l]}$ 的。之后你就可以把 $z^{[l]}$ 的值缓存起来，因为缓存的 $z^{[l]}$ 对以后的正向反向传播的步骤非常有用。

然后是反向步骤或者说反向传播步骤，同样也是第 $l$ 层的计算，你需要实现一个函数输入为 $da^{[l]}$ ，输出 $da^{[l-1]}$ 的函数。一个小细节需要注意，输入在这里其实是 $da^{[l]}$ 以及所缓存的 $z^{[l]}$ 值，之前计算好的 $z^{[l]}$ 值，除了输出的 $da^{[l-1]}$ 值以外，还需要输出你需要的梯度 $dW^{[l]}$ 和 $db^{[l]}$ ，这是为了实现梯度下降。

（2）前向传播

在正向传播过程中，“传播”的是信号数据（就是你通过节点式子算出来的值）。

（3）反向传播

通过完整的神经网络计算块，可以清晰直观的感受前向传播和反向传播参数和参数的梯度是如何在各层中传递的。 反向传播，“传播”的是误差信号在神经网络中的梯度（梯度就是指导参数该怎么变的变化率）。

原文地址：https://blog.csdn.net/qq_39780701/article/details/137848508

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：【C++】set 类和 map 类
下一篇：火绒安全的用法

【电脑】解决DiskGenius调整分区大小时报错“文件使用的簇被标记为空闲或与其它文件有交叉”
本文介绍如何解决DiskGenius调整分区大小时报错“文件使用的簇被标记为空闲或与其它文件有交叉”的错误。
阅读更多2024-11-16
UNI-APP小程序答题功能开发(左右滑动,判断,填空,问答,答题卡,纠错,做题倒计时等)
这里没啥好说的,就是根据不同的状态显示不同的内容。
阅读更多2024-11-16
ES6更新的内容中什么是proxy
Proxy 是 ES6（ECMAScript 2015）中引入的一个新的内置对象，用于定义某些操作的自定义行为（如属性查找、赋值、枚举、函数调用等）。通过创建一个对象的 Proxy，你可以控制对这个对
阅读更多2024-11-16
OTX 架构开发
（一）开发环境搭建编程环境配置根据选定的编程语言，安装相应的开发工具和编译器。如果选择 Java，安装 JDK（Java Development Kit），并配置环境变量。选择合适的集成开发环境（I
阅读更多2024-11-16
领夹麦克风哪个品牌好，手机领夹麦克风哪个牌子好，选购推荐
它最大的优势就是具有高度的灵活性，而且不受距离的过多限制，能够保证声音清晰、传输稳定，让交流沟通毫无阻碍。在此，我根据自己的选购经验以及周围朋友使用后的反馈情况，总结出了无线麦克风中那些销量靠前、口碑
阅读更多2024-11-16
SQL，力扣题目1126，查询活跃业务
(business_id, event_type) 是这个表的主键（具有唯一值的列的组合）。表中的每一行记录了某种类型的事件在某些业务中多次发生的信息。1、CTE表达式 + 窗口函数 + group
阅读更多2024-11-16
客运购票售票小程序校园巴士预约售票小程序开发方案php+uniapp
客运购票小程序开发，开发语言后端php，前端uniapp。
阅读更多2024-11-16
电子电气架构 --- 车载48V系统
电子电气架构 --- 车载48V系统
阅读更多2024-11-16
每日OJ题_牛客_DP36 abb_C++_Java
每日OJ题_牛客_DP36 abb_C++_Java（用abb中第一个出现的b来考虑，一个字符作为第一b能产生的abb字符，等于它后面相同的字符数量（意味着还能凑成多少个bb）乘以它前面与它不相同的字
阅读更多2024-11-16
51单片机基础03 矩阵按键读取与外部中断读取
介绍了独立按键读取、51单片机外部中断、矩阵按键读取等
阅读更多2024-11-16

【机器学习300问】71、神经网络中前向传播和反向传播是什么？

一、用计算图来理解

（1）前向传播

（2）损失函数

（3）反向传播

二、用神经网络块来理解

（1）神经网络块

（2）前向传播

（3）反向传播

相关文章