深度学习神经网络中的优化器的使用

🕗 发布于 2024-11-21 08:24 深度学习 神经网络 人工智能

深度学习:神经网络中的优化器的使用

在深度学习中，优化器是用于更新和调整模型参数（例如权重和偏置）的算法，目的是减小模型在训练数据上的损失函数值。优化器的核心目标是通过适当的算法快速有效地找到损失函数的最小值或近似最小值。这一过程涉及计算损失函数相对于模型参数的梯度，并使用这些梯度来更新参数。

基本原理

优化过程基于以下步骤进行：

梯度计算：在每次迭代中，首先计算损失函数关于当前参数的梯度。这些梯度指示了损失函数在参数空间中增加最快的方向。
参数更新：使用计算得到的梯度，按照特定的规则更新模型参数，以减少损失。更新规则由优化算法定义。
重复迭代：重复执行梯度计算和参数更新步骤，直到满足某些停止条件，如达到最大迭代次数、损失下降到某个阈值，或梯度接近零等。

常用的优化算法

随机梯度下降（SGD）：
- 原理：SGD是最简单的优化方法，它使用每个样本或小批量样本来近似整个数据集的梯度。每次更新都使用当前批次计算的梯度：
  [
  $\leftarrow w - \eta \cdot \nabla_w L$
  ]
  其中 ( $w$ ) 是参数，( $\eta$ ) 是学习率，( $\nabla_w L$ ) 是损失函数关于参数 ( $w$ ) 的梯度。
- 缺点：可能会导致更新过程高度波动，使得学习过程不稳定。
带动量的SGD（Momentum）：
- 原理：引入动量项，以减少更新中的波动，并加速学习过程。更新规则为：
  [
  $\leftarrow \alpha v - \eta \nabla_w L, \quad w \leftarrow w + v$
  ]
  其中 (v) 是累积的梯度（动量），(\alpha) 通常设置为0.9或接近该值。
- 优点：能够在相关方向上加速学习，在非相关方向上抑制波动。
自适应学习率优化算法（如Adam）：
- 原理：Adam结合了动量和自适应学习率的优点。它维护每个参数的学习率，使之适应参数的最近梯度的幅度：
  [
  $\leftarrow \beta_1 m + (1 - \beta_1) \nabla_w L$
  ]
  [
  $\leftarrow \beta_2 v + (1 - \beta_2) (\nabla_w L)^2$
  ]
  [
  $\hat{m} = \frac{m}{1 - \beta_1^t}, \quad \hat{v} = \frac{v}{1 - \beta_2^t}$
  ]
  [
  $\leftarrow w - \frac{\eta}{\sqrt{\hat{v}} + \epsilon} \hat{m}$
  ]
  其中 (m) 和 (v) 分别是一阶和二阶矩估计，( $\beta_1$ )、( $\beta_2$ ) 是衰减率，通常接近1。
- 优点：在不同的参数维度上可以有不同的自适应学习率，适用于处理非平稳目标和非常大规模的数据集。

示例：使用PyTorch实现Adam优化器

假设我们有一个简单的神经网络模型，用于解决二分类问题。以下代码展示了如何在PyTorch中定义模型、损失函数以及如何使用Adam优化器进行训练：

import torch
import torch.nn as nn
import torch.optim as optim

# 定义模型
class SimpleModel(nn.Module):
    def __init__(self):
        super(SimpleModel, self).__init__()
        self.fc1 = nn.Linear(10, 50)
        self.relu = nn.ReLU()
        self.fc2 = nn.Linear(50, 1)

    def forward(self, x):
        x = self.fc1(x)
        x = self.relu(x)
        x = self.fc2(x)
        return x

# 初始化模型、损失函数和优化器
model = SimpleModel()
criterion = nn.BCEWithLogitsLoss()
optimizer = optim.Adam(model.parameters(), lr=0.001)

# 假设有一批数据
inputs = torch.randn(32, 10)
targets = torch.rand(32, 1)

# 训练步骤
outputs = model(inputs)
loss = criterion(outputs, targets)
optimizer.zero_grad()
loss.backward()
optimizer.step()

print("Loss:", loss.item())

此示例中，我们构建了一个包含输入层、隐藏层和输出层的简单全连接神经网络。使用BCEWithLogitsLoss作为损失函数来处理二分类任务，并通过Adam优化器更新权重，从而在迭代过程中逐步减小模型的损失。这种训练方式是典型的深度学习训练流程，适用于各种复杂的机器学习任务。

原文地址：https://blog.csdn.net/m0_73640344/article/details/143924920

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：centos7.4+ 卸载jdk8 mysql5.7 安装openjdk11 mysql8
下一篇：10 基于深度学习的目标检测

论文阅读——Intrusion detection systems using longshort‑term memory (LSTM)
作者提出的 LSTM 模型能够有效区分正常网络流量和攻击流量。除此之外，模型结合主成分分析（PCA）和互信息作为降维方法。实验结果表明，基于 PCA 的模型（特别是使用2个主成分）在二分类和多分类任务
阅读更多2024-11-21
用源码编译虚幻引擎，并打包到安卓平台
本文详细介绍了如何用源码编译虚幻引擎，并将其打包到安卓平台。
阅读更多2024-11-21
Vue项目开发 element-UI 前端实现 1到10排列选择的按钮
在 Element UI 中，你可以通过来实现按钮的排列选择，例如让用户选择 1 到 10 之间的数字。为了实现这一功能，我们可以使用来动态生成 1 到 10 的按钮，并通过按钮点击事件来更新
阅读更多2024-11-21
Java EE 【知识改变命运】01计算机的一些知识点
计算机一些基础知识
阅读更多2024-11-21
04 —— Webpack打包CSS代码
加载器style-loader：把解析后的css代码插入到DOM。加载器css-loader ：解析css代码。直接引用，不用变量接收。
阅读更多2024-11-21
万能程序补丁工具 C# 源代码详解
万能程序补丁工具程序目的：搜索二进制可执行 EXE 或 DLL 文件分析的特征代码，替换特征代码，达到调试修正目标程序的功能。
阅读更多2024-11-21
【MySQL数据库】C#实现MySQL数据库最简单的查询和执行函数
C#和MySQL数据库是常见的数据交互，标准的查询和执行方法如下，做个记录。
阅读更多2024-11-21
单条推理转批量推理prompt
在每个线程中设置环境变量 CUDA_VISIBLE_DEVICES，以确保每个线程只使用指定的GPU。使用 concurrent.futures.ThreadPoolExecutor 来管理多线程任务
阅读更多2024-11-21
【AIGC】ChatGPT提示词Prompt解析：情感分析，分手后还可以做朋友吗？
【AIGC】在情感博弈中，最重要的是保持清醒的认知和优雅的态度。识别控制话术不是为了对抗，而是为了更好地保护自己的情感自由，实现真正的成长。
阅读更多2024-11-21
pycharm中配置pyqt5
PyQt和wxPython则提供了更多的控件和更强大的功能，适合于需要复杂用户界面的应用程序。pyQt生成的应用程序，引用图片通常是将资源文件装换为 python 文件，然后引用资源文件，而不能直接加
阅读更多2024-11-21

深度学习神经网络中的优化器的使用