pytorch 笔记：torch.optim（基类的基本操作）

🕗 发布于 2024-07-23 08:53 pytorch 笔记 人工智能

1 基本用法

1.1 构建优化器

要构建一个优化器，需要提供一个包含参数的可迭代对象来进行优化。
然后，可以指定特定于优化器的选项，如学习率、权重衰减等

optimizer = optim.SGD(model.parameters(), lr=0.01, momentum=0.9)
optimizer = optim.Adam([var1, var2], lr=0.0001)

1.2 按参数设置选项

不是传递一个 Variable 的可迭代对象，而是传递一个字典的可迭代对象
每个字典定义一个单独的参数组，并且应包含一个 params 键，包含属于该组的参数列表

optim.SGD([
    {'params': model.base.parameters(), 'lr': 1e-2},
    {'params': model.classifier.parameters()}
], lr=1e-3, momentum=0.9)

对于 model.base.parameters()，设置了学习率为 1e-2【相当于覆盖了默认的1e-3】
对于 model.classifier.parameters()，没有单独设置学习率，因此它会使用构造 optim.SGD 时设定的默认学习率，这里是 1e-3
对于这边所有的参数，都有0.9的动量

另一个例子：

bias_params = [p for name, p in self.named_parameters() if 'bias' in name]
others = [p for name, p in self.named_parameters() if 'bias' not in name]
#把参数中的偏置和非偏置分开

optim.SGD([
    {'params': others},
    {'params': bias_params, 'weight_decay': 0}
], weight_decay=1e-2, lr=1e-2)
#为偏置项设置了 0 的 weight_decay

1.3 进行优化步骤

所有优化器都实现了一个 step() 方法，用于更新参数

optimizer.step()

这是大多数优化器支持的简化版本。一旦使用例如 backward() 计算了梯度，就可以调用该函数。

2 add_param_group

torch.optim.Optimizer.add_param_group 方法是一个很有用的功能，允许你在训练过程中向优化器添加新的参数组。
这在微调预训练网络时特别有用，例如当你决定解冻某些层，让它们在训练过程中变得可训练，并需要被优化器管理。
- 当你开始训练时，可能有些网络层是冻结的（不更新权重）。随着训练的进行，你可能想要解冻一些层以进行微调
- 通过使用 add_param_group 方法，可以在不重启训练和不重新创建优化器的情况下，将这些新解冻的层添加到优化器中进行优化。

参数：

param_group (dict)

这个字典指定了应该被优化的张量（Tensors），以及与该参数组相关的特定优化选项。

这些选项可以包括学习率 (lr)、动量 (momentum)、权重衰减 (weight_decay) 等

举例：

假设有一个已经训练的模型，现在在特定的epoch之后，要解冻最后几层以进行微调


# 假设model是你的模型，model.classifier是需要最后解冻的部分

optimizer = optim.SGD([param for name, param in model.named_parameters() if 'classifier' not in name], 
    lr=0.01, 
    momentum=0.9)
# 初始化优化器，先只包括除classifier之外的其他部分

# 训练模型
num_epochs = 20
for epoch in range(num_epochs):
    if epoch == 10:   
        for param in model.classifier.parameters():
            param.requires_grad = True
        # 到达第10个epoch，解冻classifier部分的参数

        
        optimizer.add_param_group({'params': model.classifier.parameters(), 
                                    'lr': 0.001})
        # 添加新的参数组到优化器

   
    for input, target in dataset:
        optimizer.zero_grad()
        output = model(input)
        loss = loss_fn(output, target)
        loss.backward()
        optimizer.step()
     # 正常的一套训练过程

3 state_dict

torch.optim.Optimizer.state_dict() 方法返回一个字典，描述了优化器的当前状态。
这是PyTorch中模型保存和加载机制的重要组成部分，特别是在需要暂停和恢复训练过程时
返回的字典包含两个主要条目：

state	一个字典，保存当前优化状态。内容因不同的优化器类别而异，但有一些共同的特征。例如，状态是按参数保存的，而参数本身并不被保存。这个字典将参数ID映射到与每个参数相关的状态字典。
param_groups	一个列表，包含所有参数组，每个参数组都是一个字典。每个参数组包含了特定于优化器的元数据，如学习率和权重衰减，以及该组中参数的参数ID列表

{
    "state": {
        0: {"momentum_buffer": tensor(...), ...},
        1: {"momentum_buffer": tensor(...), ...},
        2: {"momentum_buffer": tensor(...), ...},
        3: {"momentum_buffer": tensor(...), ...}
    },
    "param_groups": [
        {
            "lr": 0.01,
            "weight_decay": 0,
            ...
            "params": [0]
        },
        {
            "lr": 0.001,
            "weight_decay": 0.5,
            ...
            "params": [1, 2, 3]
        }
    ]
}

4 load_state_dict

torch.optim.Optimizer.load_state_dict 方法用于加载优化器的状态。这对于恢复训练过程或从先前的训练状态继续训练非常有用。

# 假设在训练过程中，我们保存了优化器的状态
saved_state_dict = optimizer.state_dict()

# 现在我们需要重新加载优化器的状态
optimizer.load_state_dict(saved_state_dict)

原文地址：https://blog.csdn.net/qq_40206371/article/details/140614577

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

【stable diffusion模型】Stable diffusion模型分几种？一文详解，入门必看！
在Stable Diffusion中，模型并不只有一种，不同插件有不同的模型，分别作用于不同的功能。今天小元老师就带大家一起来学习一下～01大模型也就是stable diffusion模型，在默认界面
阅读更多2024-11-14
每日小练：Day2
题目描述：这道题主要考察B盒是不是A盒的子集，我们可以通过哈希表来做。
阅读更多2024-11-14
记录使用大模型过程中遇到的幻觉示例
我怀疑是这个应为这个模型比较新或者相关资料比较少，导致LLM并不认识它，所以再用一个知名度和流传度比较广的模型来试一下，它可以准确的回答。单开一篇，用来持续记录在使用通义千问过程中发现的幻觉问题，用来
阅读更多2024-11-14
springboot育婴经验分享平台-计算机设计毕业源码06078
随着现代社会对育儿知识的需求不断增长，家长们渴望找到一个可靠、便捷的平台来分享和获取育婴经验。为此，我们设计并实现了一个基于SpringBoot的育婴经验分享平台。该平台旨在为家长们提供一个互动交流的
阅读更多2024-11-14
Django 2024全栈开发指南（一）：框架简介、环境搭建与项目结构
本文主要介绍一下Django框架的基础知识、运行环境的搭建，以及开发工具的选择。同时，通过构建一个最基本的基于Django框架的Web应用程序（应用程序一般简称应用），帮助读者快速掌握Django框架
阅读更多2024-11-14
小试银河麒麟系统OCR软件
OCR （Optical Character Recognition，光学字符识别），最初是指电子设备（例如扫描仪或数码相机）检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形
阅读更多2024-11-14
Python3.11.9+selenium，获取图片验证码以及输入验证码数字
Python3.11.9+selenium，获取图片验证码以及输入验证码数字
阅读更多2024-11-14
【操作系统】每日 3 题（二十二）
📚专栏简介：在这个专栏中，我将会分享操作系统面试中常见的面试题给大家~
阅读更多2024-11-14
python+LLM技术栈的介绍-后端
Django 拥有活跃的开发者社区和丰富的文档资源，支持多种数据库（如 MySQL、PostgreSQL、SQLite 和 Oracle），并且兼容 WSGI 和 FastCGI 服务器。此外，Dja
阅读更多2024-11-14
Java使用Thumbnails进行图片处理
Java使用Thumbnails进行图片处理
阅读更多2024-11-14