Dive into Deep Learning-优化算法(1)
- 优化和深度学习的关系
- 优化是最小化损失函数,而深度学习的目标是在给定有限数据量的情况下寻找合适的模型,分别对应着训练误差和泛化误差;
- 需要注意过拟合;
- 优化面临的挑战(求解数值解)
- 局部最小值:当优化问题的数值解接近局部最优值的时候,目标函数解的梯度接近或者变为0,通过迭代获得的数值解可能仅使目标函数局部最优,而不是全局最优,一定程度的噪声会使参数跳出局部最小值,这是小批量随机梯度下降的有利特性之一,此时小批量上梯度的自然变化能够将参数从局部最小资中跳出;
- 鞍点:定义为梯度为0但是既不是全局最小值也不是局部最小值的点,尽管不是最小值,但是优化可能会停止,假设输入是k维向量,假设在0梯度处的Hessian矩阵的k个特征值均为正,此时局部最小值,均为负,为局部最大值,有正有负为鞍点;
- 梯度消失
- 凸性
- 凸集:对于任意的 a , b ∈ X a,b\in X a,b∈X,连接 a , b a,b a,b的线段也位于 X X X,则集合 X X X是凸集,数学化表示,对于任意 λ ∈ [ 0 , 1 ] \lambda\in[0,1] λ∈[0,1],有 λ a + ( 1 − λ ) b ∈ X \lambda a + (1-\lambda) b\in X λa+(1−λ)b∈X,例如实数集,两个凸集的交集也是凸集;
- 凸函数:对于所有 x , x ′ ∈ X , λ ∈ [ 0 , 1 ] x,x'\in X,\lambda\in [0,1] x,x′∈X,λ∈[0,1],有 λ f ( x ) + ( 1 − λ ) f ( x ′ ) ≥ f ( λ x + ( 1 − λ ) x ′ ) \lambda f(x) + (1-\lambda)f(x') \geq f(\lambda x + (1-\lambda)x') λf(x)+(1−λ)f(x′)≥f(λx+(1−λ)x′);
- 詹森不等式:凸性定义的推广 ∑ i α i f ( x i ) ≥ f ( ∑ i α i x i ) , ∑ i α i = 1 \sum_i\alpha_if(x_i)\geq f(\sum_i\alpha_i x_i),\sum_i\alpha_i=1 ∑iαif(xi)≥f(∑iαixi),∑iαi=1;
- 凸函数的性质:凸函数的局部极小值是全局极小值
i. 特征值和特征向量,
A
v
=
λ
v
Av=\lambda v
Av=λv,其中
v
v
v是特征向量,
λ
\lambda
λ是特征值;例如对于
A
=
[
2
1
2
3
]
A = \begin{bmatrix} 2 & 1\\ 2 & 3\end{bmatrix}
A=[2213],他的特征值是
4
,
1
4,1
4,1对应的两个特征向量是
[
1
2
]
\begin{bmatrix} 1\\ 2\end{bmatrix}
[12]和
[
1
−
1
]
\begin{bmatrix} 1 \\ -1\end{bmatrix}
[1−1]
ii. 求解特征值和特征向量:
(
A
−
λ
I
)
v
=
0
(A-\lambda I)v = 0
(A−λI)v=0,所以
(
A
−
λ
I
)
(A-\lambda I)
(A−λI)不可逆,也就是
d
e
t
(
A
−
λ
I
)
=
0
det(A-\lambda I)= 0
det(A−λI)=0,即可解得特征值
iii. 延续上面的例子,特征向量组成的矩阵
W
=
[
1
1
−
1
2
]
W=\begin{bmatrix}1 & 1\\-1 & 2\end{bmatrix}
W=[1−112],特征值组成的矩阵
∑
=
[
1
0
0
4
]
\sum=\begin{bmatrix}1 & 0\\0 & 4\end{bmatrix}
∑=[1004],可得
A
W
=
W
∑
AW=W\sum
AW=W∑,而且
W
W
W是可逆的,所以等式两边同乘
W
−
1
W^{-1}
W−1得到
A
=
W
∑
W
−
1
A=W\sum W^{-1}
A=W∑W−1
iv. 一些良好的性质:
A
n
=
W
∑
n
W
−
1
A^n = W\sum^n W^{-1}
An=W∑nW−1,也就是对应一个矩阵的乘方进行特征值分解,只需要将特征值进行同样的n次方即可,此时n需要时正数;对于矩阵的求逆,
A
−
1
=
W
∑
−
1
W
−
1
A^{-1}=W\sum^{-1}W^{-1}
A−1=W∑−1W−1,可以看到对矩阵的逆进行特征值分解,直接对特征值求逆即可;矩阵的行列式等于矩阵的特征值的乘积
d
e
t
(
A
)
=
λ
1
⋯
λ
n
det(A) = \lambda_1\cdots \lambda_n
det(A)=λ1⋯λn;矩阵的秩等于非0特征值的个数;
v. https://d2l.ai/chapter_appendix-mathematics-for-deep-learning/eigendecomposition.html
原文地址:https://blog.csdn.net/weixin_44994838/article/details/138557738
免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!