深度学习：（七）梯度下降法在神经网络中的应用

🕗 发布于 2024-09-24 16:50 深度学习 神经网络 人工智能

梯度下降法在神经网络中的应用

事先规定：

用 $n$ 表示个数（维度）:

$n^{[0]}=n_x$ ，表示单个训练样本 $x$ 的元素个数；

$n^{[1]}$ 表示隐藏层 $1$ 的单元（节点）个数；

$n^{[1]}$ 表示……

梯度下降法公式：

① $w$ 和 $b$ 参数随机初始化；

②计算预测值

③求导： $dw^{[1]}$ 、 $db^{[1]}$ 、 $dw^{[2]}$ 、 $db^{[2]}$ 。

④更新参数：
$\begin{align*} &W^{[1]}=W^{[1]}-\alpha·dW^{[1]}\\ &b^{[1]}=b^{[1]}-\alpha·db^{[1]}\\ &W^{[2]}=W^{[2]}-\alpha·dW^{[2]}\\ &b^{[2]}=b^{[2]}-\alpha·db^{[2]} \end{align*}$
第三部反向传播求导的详细步骤：
$\begin{align*} &dZ^{[2]}=A^{[2]}-Y\\ &dW^{[2]}=\frac{1}{m}dZ^{[2]}A^{[1]T}\\ &db^{[2]}=\frac{1}{m}np.sum(dZ^{[2]},axis=1,keepdims=True)\\ &dZ^{[1]}=W^{[2]T}dZ^{[2]}*g^{[1]'}(Z^{[1]})//这里的*是元素对应相乘\\ &dW^{[1]}=\frac{1}{m}dZ^{[1]}X^{T}//这里的转置是因为W^{[1]}是由w_i^{[1]T}组成的\\ &db^{[1]}=\frac{1}{m}np.sum(dZ^{[1]},axis=1,keepdims=True)\\ \end{align*}$

参数随机初始化

神经网络的参数 $w_i^{[l]}$ 和不能像逻辑回归一样，初始化为零，否则梯度下降算法就会无效。

也不要将隐藏层中的所有节点参数都初始化成一样的，否则每个节点都在做相同的运算，毫无意义。

$\begin{align*} &W^{[1]}=np.random.randn((n^{[1]},n^{[0]}))·0.01~//高斯分布随机变量再乘以0.01\\ &b^{[1]}=np.zeros((n^{[1]},1))\\ &W^{[2]}=...\\ &b^{[2]}=... \end{align*}$

通常情况下，会把参数随机初始化成很小很小的值，这也是乘以 $0.01$ 的原因。

因为参数大的话， $z$ 计算出来就会大， $a$ 也会大，就会落在激活函数 $\sigma(z)$ 或 $t anh (z)$ 的平缓区域，就会降低梯度下降法的速度，甚至形成梯度消失问题。

原文地址：https://blog.csdn.net/qq_51409113/article/details/142463520

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：缓存与数据库如何保持一致及MySQL和Redis的使用场景以及区别
下一篇：数据驱动农业——农业中的大数据

1466C/D/E/G/H信号发生器
Ceyear 1466系列信号发生器是一款面向微波毫米波尖端测试的通用测试仪器，频率范围覆盖宽、信号频谱纯度高，具有高准确度和大动态范围的功率输出，搭配单机双射频通道的设计，可满足用户多种测试要求。1
阅读更多2024-09-24
webrtc-candidate形成分析
webrtc
阅读更多2024-09-24
海山数据库(He3DB)源码详解：CommitSubTransaction函数
李超，移动云数据库工程师，负责云原生数据库He3DB的研发。弹出子事务节点。恢复事务状态为默认状态。调用PopTransaction()函数从事务链栈中弹出子事务节点。李超，移动云数据库工程师，负责云
阅读更多2024-09-24
【bug记录9】transform 3D变化的时候，背面按钮翻转到正面的时候无法点击/选中
2、让front一开始就作为正面transform:rotateY(0deg)，而父元素初始设为transform:rotateY(180deg)。在3d效果中，背面的元素翻转过来只是在gpu渲染层面
阅读更多2024-09-24
PyCharm 安装教程
你可以选择黑色的 Darcula 主题，或者保持白色的 Light主题，根据个人喜好进行选择。5. 输入代码后，点击右上角的绿色三角形按钮，或右键选择 **Run**，运行你的 Python 程序。你
阅读更多2024-09-24
【论文阅读】Act3D: 3D Feature Field Transformers for Multi-Task Robotic Manipulation
3d感知表示非常适合机器人操作，因为它们。许多操作任务在末端执行器姿态预测中，这对于处理来说计算成本很高。因此，大多数操作policies直接在2d中运行，上述3d归纳偏差。在本文中，我们介绍了act
阅读更多2024-09-24
使用 Docker 部署 RStudio 的终极教程
不同版本的R包可能会引发兼容性问题。以Seurat包为例，V4和V5之间存在较大差异，而这些版本所依赖的其他R包也会对现有代码产生影响。如果你感兴趣，可以参考我的【Seuarat4和Seurat5 共
阅读更多2024-09-24
Etcd权限认证管理
9 使用root持有的读写角色tset权限操作资源key成功 ctl put key "test角色授予root用户为key键只读操作" --user=root:root roo
阅读更多2024-09-24
sql语法学习：关键点和详细解释
..用于创建数据库。用于创建表，指定列名、数据类型和约束条件。SQL语法涵盖了数据库操作的各个方面，从基本的增删改查到复杂的查询、事务控制和高级功能如存储过程和触发器。掌握这些语法将帮助你有效地管理和
阅读更多2024-09-24
cocos creator 集成ffmpeg
node_modules@ffmpeg\ffmpeg\package.json添加。
阅读更多2024-09-24

深度学习：（七）梯度下降法在神经网络中的应用

梯度下降法在神经网络中的应用

梯度下降法公式：

参数随机初始化

相关文章