transformers进行学习率调整lr_scheduler（warmup）

🕗 发布于 2024-07-27 09:46 transformers warmup lr_scheduler cosine 学习率

一、get_scheduler实现warmup

1、warmup基本思想

Warmup（预热）是深度学习训练中的一种技巧，旨在逐步增加学习率以稳定训练过程，特别是在训练的早期阶段。它主要用于防止在训练初期因学习率过大导致的模型参数剧烈波动或不稳定。预热阶段通常是指在训练开始时，通过多个步长逐步将学习率从一个较低的值增加到目标值（通常是预定义的最大学习率）。

2、warmup基本实现

from transformers import get_scheduler

scheduler = get_scheduler(
    name="cosine",  # 可以选择 'linear', 'cosine', 'polynomial', 'constant', 'constant_with_warmup'
    optimizer=optimizer,
    num_warmup_steps=100,  # 预热步数
    num_training_steps=num_training_steps  # 总的训练步数
)

#linear：线性学习率下降
#cosine：余弦退火
#polynomial：多项式衰减
#constant：常数学习率
#constant_with_warmup：预热后保持常数

# 上述代码等价于
from transformers import get_cosine_scheduler_with_warmup

scheduler = get_cosine_scheduler_with_warmup(
    optimizer=optimizer,
    num_warmup_steps=100,  # 预热步数
    num_training_steps=num_training_steps  # 总的训练步数
)

# 同理等价于linear, polynomial, constant分别等价于
from transformers import (get_constant_schedule, get_polynomial_decay_schedule_with_warmup, get_linear_schedule_with_warmup)

二、各种warmup策略学习率变化规律

1、get_constant_schedule学习率变化规律

2、get_cosine_schedule_with_warmup学习率变化规律

3、get_cosine_with_hard_restarts_schedule_with_warmup学习率变化规律

4、get_linear_schedule_with_warmup学习率变化规律

5、get_polynomial_decay_schedule_with_warmup学习率变化规律（power=2, power=1类似于linear）

6、注意事项

如果网络中不同框架采用不同的学习率，上述的warmup策略仍然有效（如图二、5中所示）
给schduler设置的number_training_steps一定要和训练过程相匹配，如下所示。

7、可视化学习率过程

import matplotlib.pyplot as plt
from transformers import get_scheduler
from torch.optim import AdamW
import torch
import math

# 定义一些超参数

learning_rate = 1e-3  # 初始学习率

# 假设有一个模型
model = torch.nn.Linear(10, 2)

# 获得训练总的步数
epochs = 50
batch_size = 32
#train_loader = ***
#num_train_loader = len(train_loader)
num_train_loader = 1235

num_training_steps = epochs * math.ceil(num_train_loader/batch_size) # 总的训练步数

# 定义优化器
optimizer = AdamW(model.parameters(), lr=learning_rate)

# 创建学习率调度器
scheduler = get_scheduler(
    name="cosine",  # 可以选择 'linear', 'cosine', 'polynomial', 'constant', 'constant_with_warmup'
    optimizer=optimizer,
    num_warmup_steps=100,  # 预热步数
    num_training_steps=num_training_steps  # 总的训练步数
)

# 存储每一步的学习率
learning_rates = []

# for step in range(num_training_steps):
#    optimizer.step()
#    scheduler.step()
#    learning_rates.append(optimizer.param_groups[0]['lr'])

for epoch in range(epochs):
    # for batch in train_loader:
    for step in range(0, num_train_loader, batch_size):
        optimizer.step()
        scheduler.step()
        learning_rates.append(optimizer.param_groups[0]['lr'])


# 绘制学习率曲线
plt.plot(learning_rates)
plt.xlabel("Training Steps")
plt.ylabel("Learning Rate")
plt.title("Learning Rate Schedule")
plt.show()

实验结果：

原文地址：https://blog.csdn.net/qq_34950042/article/details/140648589

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：大数据｜使用Apache Spark 删除指定表中的指定分区数据
下一篇：短剧新纪元：从微电影到小程序的文化飞跃

linux线程cp模型，posix信号量，线程池，线程封装，单例模型，懒汉饿汉实现方式，自旋锁，读者写者模型
前面的同步，我们并没有一个很好的场景来模拟同步，只是简单的将有序的现象输出出来；现在我们来讲解一个比较合理且常见的模型——生产者消费者模型；
阅读更多2024-09-07
Qt/C++开源项目 TCP服务器调试助手（源码分享+发布链接下载）
该TCP服务器调试助手是用于测试和监控基于TCP协议的网络通信工具，能够帮助开发者便捷地进行网络通信调试。通过简洁的界面设计，用户可以轻松配置、管理TCP端口的连接，收发消息并进行数据监控分析。123
阅读更多2024-09-07
vue3整合antv x6实现图编辑器快速入门
例如：在上面节点基础上，我们有一个新的需求：给节点加上右键菜单。X6 支持使用 SVG、HTML 来渲染节点内容，在此基础上，我们还可以使用 React、Vue 组件来渲染节点，这样在开发过程中会非常
阅读更多2024-09-07
linux使用samba共享目录，其他虚拟机和windows都可以访问
linux使用samba共享目录，其他虚拟机和windows都可以访问
阅读更多2024-09-07
Linux系统编程实现ls -l | wc -l指令
由于该指令是通过管道的形式实现的，所以我们要使用系统函数pipe。ls -l |wc -l的作用就是统计当前目录有多少文件。由于父子间通过管道实现，所以存在读写阻塞问题，不用担心僵尸进程的产生，所以可
阅读更多2024-09-07
MySQL表操作及约束
MySQL表操作及约束
阅读更多2024-09-07
1.2CubeMAX创建FREERTOS入门示例
内核参数设置，用户根据自己的实际应用来裁剪定制。：相关宏的定义，可以自建一些常量在工程中使用。User Constants（用户常量）：定时器和信号量的创建。：用于查看堆使用情况。：任务与队列
阅读更多2024-09-07
YOLOv9改进策略【注意力机制篇】| PSA极化自我关注：实现高质量像素回归
本文记录的是基于PSA注意力模块的YOLOv9目标检测方法研究。PSA模块。本文将其应用到YOLOv9的检测任务中，使模型能够更好地捕捉图像中的细节信息，以实现目标检测任务中准确识别和定位。
阅读更多2024-09-07
爆改YOLOv8|利用yolov10的SCDown改进yolov8-下采样
yolov8改进，yolov10, 下采样SCDown, 即插即用
阅读更多2024-09-07
PDF样本图册转换为一个链接，随时打开无需印刷
想象一下，您手中有一本厚重的样本图册，里面包含了丰富多样的内容，如产品介绍、项目方案、学术论文等。在过去，您需要逐一翻阅、筛选，甚至为了便于查看，不得不将其印刷出来。如今，借助先进的数字化技术，还能实
阅读更多2024-09-07