【西瓜书】神经网络-BP算法（反向传播算法）

🕗 发布于 2024-11-28 16:01 深度学习 人工智能 神经网络 机器学习 笔记

系列文章目录

【西瓜书】神经网络-MP神经元、感知机和多层网络https://blog.csdn.net/jiangshuiy/article/details/144070587

误差逆传播算法（BP算法、反向传播算法）

误差逆传播（error BackPropagation，简称BP）算法，也叫反向传播算法，是解决多层网络的杰出代表。
值得指出的是，BP算法不仅可用于多层前馈神经网络，还可以用于其他类型的神经网络。

约定记号：
- 神经网络的输出： $\hat y_j^k = f(\beta _j-\theta _j)$
- 均方误差为： $E_k = \frac{1}{2}\sum_{j=1}^l (\hat y_j^k-y_j^k)^2$
BP算法是一个迭代学习算法。在迭代的每一轮中采用广义的感知机学习规则对参数进行更新估计，任意参数v的更新估计算式为： $v\gets v+\Delta v$
BP算法基于梯度下降（gradient descent）策略，以目标的负梯度方向对参数进行调整。对误差E_k，给定学习率η，有
- 根据“链式法则”，有 $\frac{\partial E_k}{\partial w_{hj}} = \frac{\partial E_k}{\partial \hat{y_{j}}^k}\cdot \frac{\partial \hat{y_{j}}^k}{\partial \beta_j}\cdot \frac{{\partial \beta_j}}{\partial w_{hj}}$
- 根据定义（见图）： $\frac{{\partial \beta_j}}{\partial w_{hj}}=b_h$
- Sigmoid函数的性质： $f'(x)=f(x)(1-f(x)$
- 因此： $g_j=-\frac{\partial E_k}{\partial \hat{y_{j}}^k}\cdot \frac{\partial \hat{y_{j}}^k}{\partial \beta_j} =-(\hat y_j^k-y_j^k)f'(\beta_j-\theta_j)=\hat y_j^k(1-\hat y_j^k)(y_j^k-\hat y_j^k)$
- 可得： $\Delta w_{hj} = \eta g_jb_h$
类似可得： $\Delta \theta_{j} = \eta g_j$
$\Delta v_{ih} = \eta e_h x_i$
$\Delta \gamma_{h} = \eta e_h$
其中， $e_h=-\frac{\partial E_k}{\partial b_h}\cdot \frac{\partial b_h}{\partial \alpha_h} =-\sum_{j=1}^l\frac{\partial E_k}{\partial \beta_j}\cdot \frac{\partial \beta_j}{\partial b_h}f'(\alpha_h - \gamma _h)\\=\sum_{j=1}^lw_{hj}g_jf'(\alpha_h - \gamma_h) = b_h(1-b_h)\sum_{j=1}^lw_{hj}g_j$

学习率 η∈(0, 1) 控制着算法每一轮迭代中的更新步长，若太大则容易震荡，太小则收敛速度又会过慢。
BP算法的目标是要最小化训练集D上的累计误差: $E=\frac{1}{m}\sum_{k=1}^mE_k$
“标准BP算法”每次仅针对一个训练样例更新连接权和阈值。

累积误差逆传播算法

如果推导出基于累积误差最小化的更新规则，就是累积误差逆传播（accumulated error backpropagation）算法。两种算法都很常用。

BP训练

读取训练集一遍，称为进行了“一轮”（one round，也叫 one epoch）学习。
标准BP算法和累积BP算法的区别类似于随机梯度下降与标准梯度下降之间的区别。
如何设置隐藏神经元的个数，是个未决问题。实际应用中通常用“试错法”（trial-by-error）调整。
由于其强大的表示能力，BP神经网络经常遭遇过拟合，其训练误差持续降低，但测试误差却可能上升。有两种策略常用来缓解BP网络的过拟合：
- 第1种：“早停”（early stop），将数据分成训练集和验证集，训练集用来计算梯度、更新连接权和阈值，验证集用来估计误差，若训练集误差降低但验证集误差升高，则停止训练，同时返回具有最小验证集误差的连接权和阈值。
- 第2种：“正则化”（regularization），基本思想是在误差目标函数中增加一个用于描述网络复杂度的部分。例如连接权与阈值的平方和。增加连接权与阈值平方和这一项后，训练过程将会偏好比较小的连接权和阈值，使网络输出更加“光滑”，从而对过拟合有所缓解。
神经网络的训练过程可看作一个参数寻优过程，即在参数空间中寻找一组最优参数，使得E最小。

最小值与极小值

两种最优：“局部极小”（local minimum）和“全局最小”（global minimum）。直观的看，
- 局部极小点，是参数空间中的某个点，其邻域点的误差函数值均不小于该点的函数值；
- 全局最小解，则是指参数空间中所有点的误差函数值均不小于该点的误差函数值。
- 全局最小一定是局部极小，反之则不成立。
在参数寻优过程中，希望找到全局最小。
基于梯度的搜索是使用最为广泛的参数寻优方法。
- 从某些初始解出发，迭代寻找最优参数值。
- 每次迭代中，先计算误差函数在当前的梯度，然后根据梯度确定搜索方向。例如由于负梯度方向是函数值下降最快的方向，因此梯度下降法就是沿着负梯度方向搜索最优解。若误差函数在当前点的梯度为0，则已达到局部极小，更新量降为0，这意味着参数的迭代更新将因此停止。
如果有多个极小值，就称参数寻优陷入局部极小。
现实任务中常使用以下策略来跳出局部极小：
- 以多种不同参数值初始化多个神经网络，按标准方法训练后，取其中误差最小的解作为最终参数。这相当于从多个不同的初始点开始搜索。
- 使用“模拟退火”（simulated annealing）技术。模拟退火在每一步都有一定概率接受比当前解更差的结果，从而有助于“跳出”局部极小。但是也会造成跳出全局最小。
- 使用梯随机梯度下降（stochastic gradient descent，简称SGD），随机梯度下降法在计算梯度时加入了随机因素，因此即便陷入局部极小点，计算出来的梯度仍然可能不为零，这就有机会跳出。
- 遗传算法（genetic algorithms）也常用来训练神经网络，以更好的逼近全局最小。
- 上述跳出局部极小的技术大多是启发式，理论上常缺乏保障。

原文地址：https://blog.csdn.net/jiangshuiy/article/details/144090498

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：Java算法OJ（10）哈希表练习
下一篇：Vue3+Typescript+Axios+.NetCore实现导出Excel文件功能

C/C++基础知识复习（29）
usingtypedef和 using都用于为现有类型或模板类型创建别名，帮助简化代码。typedef是传统的类型别名方式，而 using是 C++11 引入的更现代、更简洁的方式，特别是在模板类型别
阅读更多2024-11-28
Leetcode 1.两数之和
先创建一个哈希表，然后对数组进行遍历，iter代表用目标值依次减去遍历数组中的元素后得出的值，如果这个值在map中存在，则返回其索引和当前数组元素中的索引；若不存在，则将当前数组元素作为新的键值对插入
阅读更多2024-11-28
android 安全sdk相关
在网上有看到许多android安全sdk相关的内容，有重复的也有比较新鲜的内容，这里做一个整体的合集，以及后续又看到一些比较新的东西会一起放在这里。android内sdk目前可以分为以下几个部分（有一
阅读更多2024-11-28
【开源免费】基于Vue和SpringBoot的技术交流分享平台（附论文）
管理后台为管理员提供了一个强大的工具集，使他们能够轻松管理用户账户、监控平台活动、发布公告以及维护笔记内容的质量。用户网页端则为普通用户提供了一个直观的界面，让他们可以浏览、搜索、创建和分享各种技术笔
阅读更多2024-11-28
Spring-boot整合Webservice服务端
Spring Boot搭建WebService服务端
阅读更多2024-11-28
K8s调度器扩展（scheduler）
为了熟悉 K8S调度器扩展步骤，目前只修改筛选插件在 Kubernetes 源代码目录下编写调度插件代码。我们将在目录下创建一个新的插件目录。在目录中，创建文件，这是插件的核心代码。插
阅读更多2024-11-28
全景图像（Panorama Image）向透视图像（Perspective Image）的跨视图转化（Cross-view）
全景图像到透视图像的转化是一个复杂的图像处理过程，它涉及到将一个360度的全景图像转换为一个具有透视效果的图像，这种图像更接近于人眼观察世界的方式。全景图像通常是一个矩形图像，它通过将球面图像映射到平
阅读更多2024-11-28
精准监测舞动，守护电网安全：特力康输电线路北斗监测装置详解
TLKS-PMG-WDX输电线路北斗导线舞动在线监测装置，通过舞动传感器持续监测导线的位移、加速度及角度变化，并借助无线网络技术，将监测数据实时传输至监控中心。监控中心会对接收到的数据进行全面比对与分
阅读更多2024-11-28
创蓝闪验SDK鸿蒙版HarmonyOS一键登录号码认证
请求签名错误(若发生在客户端，可能是appkey传错，可检查是否跟appsecret弄混，或者有空格。:初始化成功后，如果当前为电信/联通/移动，将调用预取号，可以提前获知当前用户的手机网络环境是否符
阅读更多2024-11-28
移动充储机器人“小奥”的多场景应用（下）
在高速公路服务区，新能源汽车的充电需求得到“小奥”机器人的及时响应。得益于“小奥”的机动性，其服务策略可根据服务区的实时车流状况进行动态调整：在车流量高峰时段增加充电频次，而在车流量低谷时段则优化充电
阅读更多2024-11-28

【西瓜书】神经网络-BP算法（反向传播算法）

系列文章目录

误差逆传播算法（BP算法、反向传播算法）

累积误差逆传播算法

BP训练

最小值与极小值

相关文章