优化理论及应用精解【23】

🕗 发布于 2024-10-06 15:10 优化高等数学

文章目录

优化
参考文献

优化

Nesterov加速梯度

是一种优化算法，由Yurii Nesterov于1983年提出，是梯度下降算法的一种改进，也是目前最常用的优化算法之一。以下是对Nesterov加速梯度的详细解析：

一、定义

Nesterov加速梯度法（Nesterov Accelerated Gradient，简称NAG）是一种用于优化问题的迭代算法，旨在通过预测参数的未来位置来更新，从而加速梯度下降的收敛速度。其核心思想是在计算当前梯度之前，先根据动量项对参数进行一步预测更新。

二、公式

Nesterov加速梯度法的迭代公式如下：

基本公式： $x_{k+1}=y_k−α_k∇f(y_k)$
- 其中， $x_k$ 表示第k次迭代的参数值， $y_k$ 表示估计的下一步的参数值， $α_k$ 表示学习率， $f(y_k)$ 表示在y_k处的梯度。
简化公式： $x_{k+1}=x_k−α_k∇f(y_k)$
- 其中， $y_k$ 可以看作是 $x_k$ 沿着动量方向更新后的预测值。

三、数学原理与推导

Nesterov加速梯度法的数学原理比较复杂，但简单来说，它是通过引入动量项来累积前几次的更新方向，并在计算当前梯度之前先应用动量更新来预测下一步的参数值。这种“前瞻”的方式使得算法能够更智能地选择更新方向，特别是在遇到“陡峭”的梯度变化时，能够提前调整步伐，避免过度冲动。

四、性质

加速收敛：通过预测参数的未来位置来更新，Nesterov加速梯度法能够显著加速梯度下降的收敛速度。
减少震荡：由于引入了动量项，算法在更新参数时能够平滑地穿越平坦区域，减少震荡。
全局最优解：在训练深度神经网络时，Nesterov加速梯度法能够更快地找到全局最优解。

五、例子

假设我们要求解的优化问题是最小化函数f(x)，其中x是参数向量。我们可以按照以下步骤使用Nesterov加速梯度法进行优化：

初始化参数 $x_0$ 和动量 $v_04（与$ x_0$同维度的向量）。
设置学习率η和动量因子γ（通常设置为0.9）。
对于每次迭代t，执行以下步骤：
- 预测更新：计算预测的参数位置 $KaTeX parse error: Expected group after '_' at position 15: x_pred=x_t-γ*v_̲$ t。
- 梯度计算：在预测位置x_pred处计算梯度 $g_t=∇f(x_pred)$ 。
- 动量更新：更新动量项 $v_{t+1}=γ∗v_t−η∗g_t$ 。
- 参数更新：使用更新后的动量项更新参数 $x_{t+1}=x_t+v_{t+1}$ 。

六、例题

例题：使用Nesterov加速梯度法优化二次函数f(x)=(x-3)^2。

解答：

初始化：假设初始参数x_0=0，动量v_0=0，学习率η=0.1，动量因子γ=0.9。
迭代过程：
- 第一次迭代：
  - 预测更新： $x_pred=x_0−γ∗v_0=0$ 。
  - 梯度计算： $g_0=∇f(x_pred)=2∗(0-3)=-6$ 。
  - 动量更新： $v_1=γ∗v_0−η∗g_0=0−0.1∗(−6)=0.6$ 。
  - 参数更新： $x_1=x_0+v_1=0+0.6=0.6$ 。
- 第二次迭代：
  - 预测更新： $x_pred=x_1−γ∗v_1=0.6−0.9∗0.6=0.06$ 。
  - 梯度计算： $g_1=∇f(x_pred)=2∗(0.06-3)=-5.88$ 。
  - 动量更新： $v_2=γ∗v_1−η∗g_1=0.9∗0.6−0.1∗(−5.88)=1.068$ 。
  - 参数更新： $x_2=x_1+v_2=0.6+1.068=1.668$ 。
- 以此类推，直到收敛到最优解x=3。

通过以上步骤，我们可以看到Nesterov加速梯度法如何逐步优化参数，使其接近目标函数的最小值。

AdaGrad（Adaptive Gradient Algorithm）

是一种自适应学习率的梯度下降算法，由Duchi等人于2011年提出。以下是对AdaGrad的详细解析：

一、定义

AdaGrad是一种优化算法，旨在解决传统梯度下降算法中学习率一成不变的问题。它通过计算参数梯度的历史累积平方和，为每个参数自适应地调整学习率，从而在训练过程中动态调整每个参数的学习率，以适应不同的参数更新场景。

二、公式

AdaGrad的公式如下：

学习率更新公式：

$η t = η 01 + \sum t i = 1 (\nabla w J (w i)) 2$

或

$η t = η 0\sqrt \sum t i = 1 (\nabla w J (w i)) 2 + ϵ$

参数更新公式：

$wt + 1 = wt - η t \nabla w J (wt)$

其中，η0是初始学习率， $\nabla w J (w i)$ 是第i次迭代时参数w的梯度， $ϵ$ 是一个很小的常数，用于防止分母为零。

三、数学原理与推导

AdaGrad的数学原理基于梯度下降算法，但引入了自适应学习率的概念。在标准的梯度下降算法中，所有参数都使用相同的学习率进行更新，这可能导致学习率过大时在最小值附近震荡，或学习率过小时收敛速度过慢。AdaGrad通过计算每个参数梯度的历史累积平方和，为每个参数自适应地调整学习率。具体推导过程如下：

初始化参数w和学习率η。
在每次迭代中，计算当前参数w的梯度 $\nabla w J (w)$ 。
累积梯度平方和，即更新∑ti=1(∇wJ(wi))2。
根据累积的梯度平方和计算当前的学习率ηt。
使用当前学习率ηt更新参数w。

四、性质

自适应学习率：AdaGrad根据每个参数的历史梯度平方和自适应地调整学习率，减少了手动调节学习率的需要。
适合稀疏数据：对于稀疏特征，AdaGrad能够自动提高其学习率，使得模型更快地学习到这些特征的重要性。
学习率持续衰减：由于累积的平方梯度持续增加，学习率会持续衰减，最终导致学习率过小，从而使得训练后期模型难以收敛。
内存开销：需要为每个参数存储一个累积的梯度平方和，这在参数很多时会增加额外的内存开销。

五、例子

假设我们有一个简单的二次损失函数J(w)=(w−3)2，我们使用AdaGrad算法来优化参数w。

初始化参数w0=0，学习率η0=0.1，累积梯度平方和G=0。
在第一次迭代中，计算梯度 $\nabla w J (w 0) = 2 (0 - 3) = - 6$ 。
更新累积梯度平方和 $G = G + (- 6) 2 = 36$ 。
计算当前学习率 $η 1 = η 0\sqrt36 + ϵ = 0.1\sqrt36 + 1 e - 8 \approx 0.0167$ 。
更新参数 $w 1 = w 0 - η 1\nabla w J (w 0) = 0 - 0.0167 \times (- 6) = 0.1$ 。

六、例题

例题：使用AdaGrad算法优化损失函数 $J (w) = (w - 5) 2$ ，并给出前两次迭代的参数更新过程。

解答：

初始化参数w0=0，学习率η0=0.1，累积梯度平方和G=0。
在第一次迭代中：
- 计算梯度 $\nabla w J (w 0) = 2 (0 - 5) = - 10$ 。
- 更新累积梯度平方和 $G = G + (- 10) 2 = 100$ 。
- 计算当前学习率 $η 1 = η 0\sqrt100 + ϵ = 0.1\sqrt100 + 1 e - 8 \approx 0.01$ 。
- 更新参数 $w 1 = w 0 - η 1\nabla w J (w 0) = 0 - 0.01 \times (- 10) = 0.1$ 。
在第二次迭代中：
- 计算梯度 $\nabla w J (w 1) = 2 (0.1 - 5) = - 9.8$ 。
- 更新累积梯度平方和 $G = G + (- 9.8) 2 \approx 196.04$ 。
- 计算当前学习率 $η 2 = η 0\sqrt196.04 + ϵ = 0.1\sqrt196.04 + 1 e - 8 \approx 0.0071$ 。
- 更新参数 $w 2 = w 1 - η 2\nabla w J (w 1) = 0.1 - 0.0071 \times (- 9.8) \approx 0.1696$ 。

通过以上步骤，我们可以看到AdaGrad算法如何根据每个参数的历史梯度平方和自适应地调整学习率，并逐步优化参数w。

参考文献

文心一言

原文地址：https://blog.csdn.net/sakura_sea/article/details/142726064

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：信号与系统第四章（连续时间傅里叶变换）
下一篇：R语言绘制散点图

Redis事务、管道和发布订阅
冤头债主(一组命令中的一条命令出现问题后整组命令中其他命令依旧可以执行，redis不支持事务回滚，开发者必须在事务执行出错后自觉恢复到发生错误之前的状态)Redis的事务仅仅是保证事务里的操作会被连续
阅读更多2024-10-07
前端模块化进化史：从全局 function 到 ES Modules
随着前端开发的不断进步，模块化已成为现代Web应用中不可或缺的重要组成部分。在这篇文章中，我们将一起回顾前端模块化的历程，从最早的全局函数到今天广为采用的ES Modules，探索每一阶段的技术演变及
阅读更多2024-10-07
Python知识点：在Python环境中，如何使用Transformers进行预训练语言模型应用
Transformers库为NLP任务提供了一个简单而强大的工具集。通过上述步骤，你可以轻松地加载预训练模型，对文本进行编码、生成、分类和实体识别等任务。无论是研究还是商业应用，Transformer
阅读更多2024-10-07
鸽笼原理与递归 - 离散数学系列（四）
鸽笼原理（Pigeonhole Principle）指出：如果有 n 个鸽子放入 m 个鸽笼，并且 n > m，那么至少有一个鸽笼里会有多个鸽子。这一原理看似简单，但在数学证明和计算机科学中有着
阅读更多2024-10-07
面试--开源框架面试题集合
Spring谈谈自己对于 Spring IoC 的了解什么是 IoC?IoC 解决了什么问题?什么是 Spring Bean？将一个类声明为 Bean 的注解有哪些?@Component 和 @Bea
阅读更多2024-10-07
fastreport导出PDF后style bold粗体斜体等字体风格不显示的原因
于是通过查找资料，发现宋体字体就只有一个，宋体的加粗是通过软件插值计算实现的，不像微软雅黑那样是有单独的粗体字体。如果不能通过加载字体简单解决，那么要更改fastreport源码的工作量有点大了，于是
阅读更多2024-10-07
OJ在线评测系统微服务用分布式消息队列 RabbitMQ 解耦判题服务和题目服务手搓交换机和队列实现项目异步化
分布式消息队列是一种用于异步通信的系统，它允许不同的应用程序或服务之间传递消息。消息队列的核心理念是将消息存储在一个队列中，发送方可以将消息发送到队列，而接收方则可以在适当的时候从队列中读取消息。这种
阅读更多2024-10-07
Studying-多线程学习Part4 - 异步并发——async future、packaged_task、promise
异步并发——async future、packaged_task、promise | 原子操作 atomic
阅读更多2024-10-07
【电路基础 · 3】实际电压源 && 实际电流源；两种电源的等效情况；戴维南模型 && 诺顿模型（自用）
所有的电压源电流源电阻混合的电路到最后，都能够被化简为 1 个电压源和 1 个电阻 => 串联的电路。思路是这样：我们能够将左侧的 5A 电流源和与它并联的 3Ω 电阻看做一个整体，也
阅读更多2024-10-07
Mysql(五) --- 数据库设计
上一篇博客中，我们学习增删查改等基本操作，在工作中，每种表之间都是存在关联的，而不是相互独立的，因此这一篇中，我们来学习数据库设计和联合查询• 数据库表的每⼀列都是不可分割的原子数据项，而不能是集合，
阅读更多2024-10-07

优化理论及应用精解【23】

文章目录

优化

Nesterov加速梯度

一、定义

二、公式

三、数学原理与推导

四、性质

五、例子

六、例题

AdaGrad（Adaptive Gradient Algorithm）

一、定义

二、公式

三、数学原理与推导

四、性质

五、例子

六、例题

参考文献

相关文章