Dive into Deep Learning-优化算法(1)

🕗 发布于 2024-05-15 18:36 深度学习

优化和深度学习的关系

优化是最小化损失函数，而深度学习的目标是在给定有限数据量的情况下寻找合适的模型，分别对应着训练误差和泛化误差；
需要注意过拟合；

优化面临的挑战（求解数值解）

局部最小值：当优化问题的数值解接近局部最优值的时候，目标函数解的梯度接近或者变为0，通过迭代获得的数值解可能仅使目标函数局部最优，而不是全局最优，一定程度的噪声会使参数跳出局部最小值，这是小批量随机梯度下降的有利特性之一，此时小批量上梯度的自然变化能够将参数从局部最小资中跳出；
鞍点：定义为梯度为0但是既不是全局最小值也不是局部最小值的点，尽管不是最小值，但是优化可能会停止，假设输入是k维向量，假设在0梯度处的Hessian矩阵的k个特征值均为正，此时局部最小值，均为负，为局部最大值，有正有负为鞍点；
梯度消失

凸性

凸集：对于任意的 $a,b\in X$ ，连接 $a, b$ 的线段也位于 $X$ ，则集合 $X$ 是凸集，数学化表示，对于任意 $\lambda\in[0,1]$ ，有 $\lambda a + (1-\lambda) b\in X$ ，例如实数集，两个凸集的交集也是凸集；
凸函数：对于所有 $x,x'\in X,\lambda\in [0,1]$ ，有 $\lambda f(x) + (1-\lambda)f(x') \geq f(\lambda x + (1-\lambda)x')$ ;
詹森不等式：凸性定义的推广 $\sum_i\alpha_if(x_i)\geq f(\sum_i\alpha_i x_i),\sum_i\alpha_i=1$ ;
凸函数的性质：凸函数的局部极小值是全局极小值

i. 特征值和特征向量， $Av=\lambda v$ ，其中 $v$ 是特征向量， $\lambda$ 是特征值；例如对于 $\begin{bmatrix} 2 & 1\\ 2 & 3\end{bmatrix}$ ，他的特征值是 $4, 1$ 对应的两个特征向量是 $\begin{bmatrix} 1\\ 2\end{bmatrix}$ 和 $\begin{bmatrix} 1 \\ -1\end{bmatrix}$
ii. 求解特征值和特征向量： $(A-\lambda I)v = 0$ ，所以 $(A-\lambda I)$ 不可逆，也就是 $det(A-\lambda I)= 0$ ，即可解得特征值
iii. 延续上面的例子，特征向量组成的矩阵 $W=\begin{bmatrix}1 & 1\\-1 & 2\end{bmatrix}$ ，特征值组成的矩阵 $\sum=\begin{bmatrix}1 & 0\\0 & 4\end{bmatrix}$ ，可得 $AW=W\sum$ ，而且 $W$ 是可逆的，所以等式两边同乘 $W^{-1}$ 得到 $A=W\sum W^{-1}$
iv. 一些良好的性质： $A^n = W\sum^n W^{-1}$ ，也就是对应一个矩阵的乘方进行特征值分解，只需要将特征值进行同样的n次方即可，此时n需要时正数；对于矩阵的求逆， $A^{-1}=W\sum^{-1}W^{-1}$ ，可以看到对矩阵的逆进行特征值分解，直接对特征值求逆即可；矩阵的行列式等于矩阵的特征值的乘积 $\lambda_1\cdots \lambda_n$ ；矩阵的秩等于非0特征值的个数；
v. https://d2l.ai/chapter_appendix-mathematics-for-deep-learning/eigendecomposition.html

原文地址：https://blog.csdn.net/weixin_44994838/article/details/138557738

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：2024年第十届中西部外语翻译大赛
下一篇：Win10安装mamba个人总结的2种实现方式

为何选择 C++：深入剖析其优势与适用场景
例如，在一个企业级应用开发中，可以通过类的设计来构建不同的业务模块，每个模块之间通过清晰的接口进行交互，当业务需求发生变化时，只需要对相应的模块进行修改，而不会影响整个系统的稳定性。许多底层的硬件驱动
阅读更多2024-10-19
Python代码的静态分析工具-Pylint
此外，Pylint还能够识别一些常见的安全问题，并将它们归类为CWE（Common Weakness Enumeration），提醒开发者潜在的安全隐患。Pylint利用多种静态代码分析技术检查Pyt
阅读更多2024-10-19
Redis中String类型常见的应用场景
主要介绍了使⽤ Redis 的字符串数据类型可以使⽤的几个场景
阅读更多2024-10-19
LeetCode题练习与总结：二维区域和检索 - 矩阵不可变--304
本文详细介绍了如何使用前缀和矩阵解决二维矩阵子矩形范围内元素总和的计算问题，包括解题思路、具体代码实现以及时间复杂度和空间复杂度分析，为高效处理此类问题提供了有效方法。
阅读更多2024-10-19
Vue 3为什么移除过滤器功能以及替代方案（如何使用计算属性代替过滤器、讨论使用过滤器的最佳实践、如何在Vue 3中实现类似过滤器的功能）
在Vue 2中，过滤器（`filter`）常用于模板中对数据进行简单的格式化处理。然而，在Vue 3中，过滤器被移除了。本文将探讨Vue 3中去掉过滤器的原因，并讨论如何使用计算属性等方式替代过滤器功
阅读更多2024-10-19
013_django基于大数据的高血压人群分析系统2024_dcb7986h_055
博主介绍：CodeMentor毕业设计领航者、全网关注者30W+群落，InfoQ特邀专栏作家、技术博客领航者、InfoQ新星培育计划导师、Web开发领域杰出贡献者，博客领航之星、开发者头条/腾讯云/A
阅读更多2024-10-19
JavaSE之String类
字符串String类的一些常用方法，StringBuilder和StringBuffer的用法及区别
阅读更多2024-10-19
基于langchain.js快速搭建AI-Agent
如何基于langchain，快速搭建属于自己的AI智能体
阅读更多2024-10-19
G1 GAN生成MNIST手写数字图像
生成对抗网络 (GAN) 是一种通过“对抗性”学习生成数据的深度学习模型，通常用于生成图像、视频等数据。生成器 (Generator)：用于生成假的数据样本，试图让判别器无法分辨其为假的。判别器 (D
阅读更多2024-10-19
centos 安装达梦数据库
2.1、下载的压缩包(dm8_20240712_x86_rh7_64.zip)上传到服务器。2.9、数据库使用（默认账户/密码：SYSDBA/SYSDBA）2.5、安装完成，通过脚本进行配置(切换到r
阅读更多2024-10-19

Dive into Deep Learning-优化算法(1)

相关文章