【pytorch16】MLP反向传播

🕗 发布于 2024-07-09 22:55 pytorch 人工智能 python

链式法则回顾

在这里插入图片描述

多输出感知机的推导公式回顾

在这里插入图片描述

只与w相关的输出节点和输入节点有关

多层多输入感知机

扩展为多层感知机的话，意味着还有一些层（理解为隐藏层σ函数），暂且设置为 $x_{j}$ 层
在这里插入图片描述
对于 $x_{j}$ 层如果把前面的层数和输入挡住的话就可以类似于一个单层的多输入感知机一样

逐步推导最终的loss对第二层 $w_{jk}$ 的推导公式

把 $O^{k}_{k}$ 与 $t_{k}$ 的线性组合换元成 $\delta^{k}_{k}$ ,因此对于最终的输出层上面一共有k个节点的话，最终会有k个 $\delta^{k}$ ，通过这个中间变量可以得到 $\delta^{k}$ 的变量再乘一个输入 $O^{j}$ ，通过这两个相乘就可以得到一个损失对 $w_{jk}$ 的梯度计算公式，看起来比原先的要简洁和清晰，所以单独取了一个名字

$\delta^{k}$ 可以通过前项计算得到， $O^{k}$ 和 $t_{k}$ 都是知道的，因此这一部分可以直接在前项计算的时候就把 $\delta^{k}$ 求出来，再取上一层的 $O^{j}$ 的变量就可以直接得到矩阵数组（ $O^{j}$ 看做列向量， $\delta^{k}$ 为行向量），这个矩阵数组代表了这一层所有连接的梯度信息，通过这个矩阵可以直接更新梯度也就是 $w_{jk}$
在这里插入图片描述
可以看出O的下标是w的行数，δ的下标是w的列数

现在我们希望得到最终层的loss对第一层的 $w_{ij}$ 的推导公式
在这里插入图片描述
第二步，把偏微分可以写进求和符合，因为只有 $O_{k}$ 包含 $w_{ij}$ ，可以把 $O_{k}$ 作为一个整体

第三步，继续把 $O_{k}$ 展开， $O_{k}$ 是 $x_{k}$ 经过激活函数得到的

第四步，使用链式法则

第五步， $\sigma(x_{k})$ 就是 $O_{k}$ ，把第四步的偏微分用链式法则展开，让 $x_{k}$ 对中间变量 $O_{j}$ 偏导，再让 $O_{j}$ 对 $w_{ij}$ 偏导

第六步， $x_{k}$ 对具体的 $O_{j}$ 偏导而言， $x_{k}$ 是 $O_{j}w_{jk}$ 的累加（此时j是一个范围属于[0到n]），只有当范围的j与具体的j相同时，偏导才存在为 $w_{jk}$ ，看图的话只有一条线影响

第七步，由于 $w_{ij}$ 与求和中的k变量无关，因此可以提前

第八步， $\sigma(x_{j})$ 就是 $O_{j}$ 同第四步和第五步，而 $x_{j}$ 对 $w_{ij}$ 的偏微分（同第六步， $x_{j}$ 等于 $x^{0}_{i}w_{ij}$ 的累加）只有当 $w_{ij}$ 相等时偏导才存在为 $x^{0}_{i}$ ，此处设置为 $O_{i}$

总结
在这里插入图片描述

用 $\delta^{k}$ 替换求和中线性组合部分，变成了三段表达式
在这里插入图片描述

$\delta^{k}$ 定义为从k层节点开始到最终的输出层的梯度传到的一个信息，这个信息是什么也不好说太复杂了，但是可以明确只要拿到了 $\delta^{k}$ 的信息，这一层的任何节点的梯度信息就可以直接使用当前的O节点的输出乘以前面的所有信息 $\delta^{k}$

同样对于中间层而言，也只需要得到上一层的输入和这一层 $\delta^{j}$ 的信息就可以得到隐藏层的梯度信息

在这里插入图片描述
首先计算输出层的 $\delta^{k}$ 以及输出层的更新的梯度信息，得到输出层以后计算导数第二层的 $\delta^{j}$ 和梯度信息( $w_{ij}$ 的)

通过这种方式再可以计算倒数第三层的 $\delta^{i}$ 和梯度信息就可以计算出所有层的偏微分的信息
在这里插入图片描述
得到这个梯度信息以后，可以直接使用链式法则以及梯度更新方式，更新权值，反复循环达到我们想要的一个程度

原文地址：https://blog.csdn.net/qq_45291280/article/details/140201118

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：刷题之删除有序数组中的重复项（leetcode）
下一篇：ORA-12537: TNS:连接关闭/Io 异常: Got minus one from a read call

python包管理工具pip和conda的使用对比
pip相对于conda,对应包的依赖关系管理不强，坏处是容易造成包冲突，好处是对于一些特定需要，可以避免处理包依赖关系，直接使用pip安装。一般deactivate 两次即可。2.1.0是相应包的版本
阅读更多2024-11-08
github.io出现的问题及解决方案
手动修改DNS，尝试过很多个DNS解析服务，只有首选DNS服务器设置为114.114.114.114，备用设置为208.67.222.222成功了一个下午，之后莫名打回原形，使用DNS jupmpe
阅读更多2024-11-08
HTML 块级元素和内联（行内）元素详解
块级元素是页面中的结构元素，它们独占一行，通常用于搭建页面的主要框架，如段落、容器、标题等。它们无论其内容多少，都会占据父元素的整个宽度。这种特性使得块级元素特别适合用于页面的整体布局和内容的分区组织
阅读更多2024-11-08
ACM社团第一次测试题解（禁止直接复制粘贴提交）
思路：解法一：暴力比较，两个数之间一直比较得出中位数解法二：快排函数，数组中间值即为中位数代码：1.c语言版：2.c++版：求和：思路：判断是否有两个数相加为第三个数即可代码：1.c语言版：2.c++
阅读更多2024-11-08
机器学习——排序特征（Ranking Features）原理详解
通过以上步骤，我们了解了排序特征的原理及实现过程。排序特征通过特征工程和点对、列表排序算法学习样本之间的相对顺序。RankNet 模型实现了点对比较，通过神经网络生成特征的排序分数。代码实现展示了如何
阅读更多2024-11-08
Django安装
在 Django 项目中，app是一个功能模块，它包含了特定的业务逻辑、数据模型和视图，是 Django 项目结构化管理的核心部分。python manage.py startapp app文件名称。
阅读更多2024-11-08
Centos 下安装 jsoncpp 库、bundle 数据压缩库、httplib 库 -- 详细教程
Centos 下安装 jsoncpp 库、bundle 数据压缩库、httplib 库
阅读更多2024-11-08
Linux（CentOS）安装 Nginx
Linux（CentOS）安装 Nginx。
阅读更多2024-11-08
golang笔记
本应在栈中内存,被分配到了堆中1 返回指针对象在外部被使用2 reutrn 函数使用了上面方法的敞亮3 入参是interface{} 动态参数4 make超过栈大小-gcflags="-
阅读更多2024-11-08
webworker
总结：js异步是始终要回到主线程的，webworker是不需要回到主线程，它自己创建一条线程自己去操作，这样主线程就可以不用管它，等它计算完了后，它可以主动把计算结果发给主线程（得主动发，不然收不到）
阅读更多2024-11-08

【pytorch16】MLP反向传播

链式法则回顾

多输出感知机的推导公式回顾

多层多输入感知机

相关文章