35.Adam算法

🕗 发布于 2024-07-13 04:41 算法

RMSProp 和 Adadelta 算法

在深度学习中，RMSProp 和 Adadelta 是两种常见的优化算法。它们都是在 AdaGrad 的基础上做了改进，以适应深度学习中的大规模参数优化需求。

RMSProp 算法

基本思想

RMSProp 对 AdaGrad 进行改进，通过引入衰减率来调整二阶动量的累积。这样可以避免 AdaGrad 中学习率过快减小的问题。

AdaGrad 的二阶动量计算公式如下：
\[ v_t = v_{t-1} + g_t^2 \]

而 RMSProp 采用了带有衰减率的计算方式：
\[ v_t = \beta v_{t-1} + (1 - \beta) g_t^2 \]

其中，\( \beta \) 是衰减率系数。

优缺点

优点：
- 自动调整学习率，加速收敛速度。
- 避免学习率过大或过小的问题。
- 简单适用，适用于各种优化问题。

缺点：
- 在处理稀疏特征时不够优秀。
- 需要调整的超参数较多（衰减率 \( \beta \) 和学习率 \( \alpha \)）。
- 收敛速度可能不如某些更先进的优化算法。

代码实现

import torch
import matplotlib.pyplot as plt

# 定义超参数
learning_rate = 0.01
epochs = 100
beta = 0.9

# 随机生成数据
x = torch.randn(100, 1)
y = 2 * x + 3 + torch.randn(100, 1) * 0.5

# 初始化参数
w = torch.randn(1, requires_grad=True)
b = torch.zeros(1, requires_grad=True)

# 定义RMSProp优化器
optimizer = torch.optim.RMSprop([w, b], lr=learning_rate, alpha=beta)

# 记录损失
losses = []

for epoch in range(epochs):
    # 预测
    y_pred = x * w + b
    # 计算损失
    loss = torch.mean((y_pred - y) ** 2)
    losses.append(loss.item())
    
    # 清空梯度
    optimizer.zero_grad()
    # 反向传播
    loss.backward()
    # 更新参数
    optimizer.step()

# 可视化训练过程
plt.plot(range(epochs), losses)
plt.xlabel('Epoch')
plt.ylabel('Loss')
plt.title('Training Loss with RMSProp')
plt.show()

Adadelta 算法

基本思想

Adadelta 是对 RMSProp 的进一步改进，旨在自动调整学习率，避免手动调参。它通过计算梯度和权重更新量的累积值来调整学习率，使得训练过程更加稳定。

Adadelta 的公式如下：

1. 梯度的累积：
\[ E[g^2]_t = \rho E[g^2]_{t-1} + (1 - \rho) g_t^2 \]

2. 权重更新量的累积：
\[ E[\Delta x^2]_t = \rho E[\Delta x^2]_{t-1} + (1 - \rho) (\Delta x_t)^2 \]

3. 更新参数：
\[ \Delta x_t = -\frac{\sqrt{E[\Delta x^2]_{t-1} + \epsilon}}{\sqrt{E[g^2]_t + \epsilon}} g_t \]
\[ \theta_{t+1} = \theta_t + \Delta x_t \]

优缺点

优点：
- 不需要手动调整学习率，节省调参时间。
- 避免出现学习率饱和现象，使得训练更加稳定。

缺点：
- 可能收敛较慢。
- 需要维护梯度和权重更新量的累积值，增加了空间复杂度。

代码实现

import torch
import matplotlib.pyplot as plt

# 定义超参数
learning_rate = 1.0  # Adadelta 不需要传统的学习率
epochs = 100
rho = 0.9
epsilon = 1e-6

# 随机生成数据
x = torch.randn(100, 1)
y = 2 * x + 3 + torch.randn(100, 1) * 0.5

# 初始化参数
w = torch.randn(1, requires_grad=True)
b = torch.zeros(1, requires_grad=True)

# 定义Adadelta优化器
optimizer = torch.optim.Adadelta([w, b], rho=rho, eps=epsilon)

# 记录损失
losses = []

for epoch in range(epochs):
    # 预测
    y_pred = x * w + b
    # 计算损失
    loss = torch.mean((y_pred - y) ** 2)
    losses.append(loss.item())
    
    # 清空梯度
    optimizer.zero_grad()
    # 反向传播
    loss.backward()
    # 更新参数
    optimizer.step()

# 可视化训练过程
plt.plot(range(epochs), losses)
plt.xlabel('Epoch')
plt.ylabel('Loss')
plt.title('Training Loss with Adadelta')
plt.show()

接下来，我们将介绍目前常用的梯度下降法中的王者——Adam算法。

Adam 算法

Adam（Adaptive Moment Estimation）是目前深度学习中最常用的优化算法之一。它结合了动量法和 RMSProp 的优点，通过计算一阶和二阶动量来动态调整学习率，具有较快的收敛速度和较高的稳定性。

基本思想

Adam 算法利用梯度的一阶动量（即梯度的指数加权平均）和梯度的二阶动量（即梯度平方的指数加权平均）来调整每个参数的学习率。具体公式如下：

1. 梯度的一阶动量：
\[ m_t = \beta_1 m_{t-1} + (1 - \beta_1) g_t \]

2. 梯度的二阶动量：
\[ v_t = \beta_2 v_{t-1} + (1 - \beta_2) g_t^2 \]

3. 偏差修正：
\[ \hat{m}_t = \frac{m_t}{1 - \beta_1^t} \]
\[ \hat{v}_t = \frac{v_t}{1 - \beta_2^t} \]

4. 更新参数：
\[ \theta_{t+1} = \theta_t - \frac{\alpha \hat{m}_t}{\sqrt{\hat{v}_t} + \epsilon} \]

其中：
- \( \beta_1 \) 和 \( \beta_2 \) 分别是动量和均方根动量的衰减率，常用值为 \( \beta_1 = 0.9 \) 和 \( \beta_2 = 0.999 \)。
- \( \epsilon \) 是一个很小的常数，用于防止分母为零，常用值为 \( 10^{-8} \)。

优缺点

优点：
- 自适应调整学习率，训练过程稳定，收敛速度快。
- 能处理稀疏梯度，适用于大规模数据和参数。
- 几乎不需要调整学习率等超参数。

缺点：
- 对于某些特定问题，可能会出现不稳定的收敛行为。
- 参数调整多，超参数较多，调参复杂度高。

代码实现

import torch
import matplotlib.pyplot as plt

# 定义超参数
learning_rate = 0.001
epochs = 100

# 随机生成数据
x = torch.randn(100, 1)
y = 2 * x + 3 + torch.randn(100, 1) * 0.5

# 初始化参数
w = torch.randn(1, requires_grad=True)
b = torch.zeros(1, requires_grad=True)

# 定义Adam优化器
optimizer = torch.optim.Adam([w, b], lr=learning_rate)

# 记录损失
losses = []

for epoch in range(epochs):
    # 预测
    y_pred = x * w + b
    # 计算损失
    loss = torch.mean((y_pred - y) ** 2)
    losses.append(loss.item())
    
    # 清空梯度
    optimizer.zero_grad()
    # 反向传播
    loss.backward()
    # 更新参数
    optimizer.step()

# 可视化训练过程
plt.plot(range(epochs), losses)
plt.xlabel('Epoch')
plt.ylabel('Loss')
plt.title('Training Loss with Adam')
plt.show()

小结

Adam 算法作为一种自适应的梯度下降优化算法，结合了动量法和 RMSProp 的优点，能够有效地加速模型的收敛，同时保持稳定性。它通过计算一阶和二阶动量来动态调整学习率，使得模型在训练过程中能够快速收敛，并适应不同的优化问题。尽管 Adam 需要调整的超参数较多，但其优越的性能使得它成为深度学习中最广泛使用的优化算法之一。

通过学习 Adam 算法，我们不仅掌握了一种先进的优化技术，还了解了深度学习中优化算法的发展历程和演进过程。希望大家能将这些知识应用到实际项目中，提升模型的性能和训练效率。

原文地址：https://blog.csdn.net/qq_41238579/article/details/139900287

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：IDEA的JAVA版本没有8怎么办
下一篇：PGCCC|【PostgreSQL】PCA+PCP+PCM等IT类认证申报个税退税指南

智慧矿山建设方案
我国矿山资源储存条件复杂，矿山地质灾害频发，矿山生产事故发生率及死亡率较高，安全责任事也严重影响了矿企社会和经济效益。为保障矿山安全生产，早在2012年中国智慧矿山联盟提出“智慧矿山”概念，是以矿山数
阅读更多2024-11-08
前端通过后端返回的文件流，下载内容到本地
【代码】前端通过后端返回的文件流，下载内容到本地。
阅读更多2024-11-08
_处理匿名命名空间里的变量时进入硬件中断错误
如果在 .hpp 文件中匿名命名空间外部定义一个 static 变量，并在同一个文件中定义一个静态内联函数来操作这个变量，然后在其他文件中调用这个内联函数，这种做法仍然会导致每个翻译单元有一个独立的变
阅读更多2024-11-08
数据结构-数组（稀疏矩阵转置）和广义表
数组是一种用于存储多个相同类型数据的集合，其元素在内存中连续存放并按照一定的顺序排列。这种有序性和连续性使得数组在访问时具有较高的效率。数组的特点包括所有元素具有相同的数据类型、可以通过索引快速访问任
阅读更多2024-11-08
Flutter &&鸿蒙next中的 Stack 和 Positioned 用法详解
Stack和Positioned是 Flutter 中处理复杂布局的重要工具。Stack可以将多个子组件堆叠在一起，而Positioned则能让我们精确地控制这些子组件的位置。结合使用这两个组件，我们
阅读更多2024-11-08
Scala的集合
Scala.collection.immutable表示不可变集合。Scala .collection中包含可变集合和不可变集合。Scala.collection.mutable表示可变集合。val和
阅读更多2024-11-08
小白docker入门简介
什么是docker，什么是镜像、容器，小白讲解
阅读更多2024-11-08
火山引擎云服务docker 安装
依次执行以下命令，添加Docker CE镜像源。本文以 Docker Hub 的 ubuntu 镜像为例。执行以下命令，确认 Docker 安装情况。执行以下命令，运行 Docker。执行以下命令，添
阅读更多2024-11-08
ROS2humble版本使用colcon构建包
colcon与与catkin相比，没有 devel目录。
阅读更多2024-11-08
粘贴可运行：Java调用大模型(LLM) 流式Flux stream 输出；基于spring ai alibaba
在Java中，使用Spring AI Alibaba框架调用国产大模型通义千问，实现流式输出，是一种高效的方式。Spring AI Alibaba提供了统一且灵活的接口，使开发者能够轻松与不同的大模型
阅读更多2024-11-08

35.Adam算法

RMSProp 和 Adadelta 算法

RMSProp 算法

基本思想

优缺点

代码实现

Adadelta 算法

基本思想

优缺点

代码实现

Adam 算法

基本思想

优缺点

代码实现

小结

相关文章