【深度学习】梯度累加和直接用大的batchsize有什么区别

🕗 发布于 2024-11-06 12:48 深度学习 pytorch

梯度累加与使用较大的batchsize有类似的效果，但是也有区别

1.内存和计算资源要求

梯度累加： 通过在多个小的mini-batch上分别计算梯度并累积，梯度累积不需要一次加载所有数据，因此显著减少了内存需求。这对于显存有限的设别尤为重要，因为直接使用较大的batchsize可能会导致内存溢出
大的batchsize： 直接使用较大的batchsize会同时将所有的数据加载到内存中，内存占用率显著提升

2. 参数更新频率

梯度累加： 虽然累加 N 个 mini-batch 才更新一次参数，但每个 mini-batch 的梯度都计算一次，因此更新频率相对较低。不过，这不会显著影响模型的效果，因为总的参数更新步数并未减少。
大 batchsize： 一次计算出全部数据的梯度，并立即更新参数。因此更新频率更高，但效果与累积更新基本一致

3. 结果相似度

理论上等效：梯度累加和直接使用大的 batch size 在数学上是等效的，最终效果类似。

4. 使用场景

梯度累加： 适合在内存受限情况下模拟大 batch 效果，或在分布式训练场景中应用
直接大 batchsize： 适合有充足内存的硬件设备，但灵活性不及梯度累加

5. 代码示例

# 梯度累加
accumulation_steps = 4
optimizer.zero_grad()
for i, (inputs, labels) in enumerate(data_loader):
    outputs = model(inputs)
    loss = loss_fn(outputs, labels)
    loss.backward()

    if (i + 1) % accumulation_steps == 0:
        optimizer.step()
        optimizer.zero_grad()

# 大的batchsize
data_loader = DataLoader(dataset, batch_size=256) # 假设 256 是较大的 batch size
for inputs, labels in data_loader:
    optimizer.zero_grad()
    outputs = model(inputs)
    loss = loss_fn(outputs, labels)
    loss.backward()
    optimizer.step()

原文地址：https://blog.csdn.net/qq_42761751/article/details/143522554

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：基础算法练习--滑动窗口(日更中)
下一篇：Spring Cloud Bus快速入门Demo

Spark on YARN：Spark集群模式之Yarn模式的原理、搭建与实践
本文将深入探讨为什么要将 Spark 程序运行在 YARN 上而不是 Spark 自带的 Standalone 集群上，详细介绍 Spark 的 YARN 集群搭建过程，以及在 YARN 模式下不同
阅读更多2024-11-07
1.1 关于游戏编程
1.1.1、游戏中客户端和服务器的交互1.1.2、游戏客户端安装包和服务器安装包1.1.3、客户端软件如何和服务端软件通信1.1.4、计算机之间的通信数据传送抓取（wireshark）1.1.5、关于
阅读更多2024-11-07
全文检索ElasticSearch到底是什么？
但是电商项目中，商品上亿条时，查询“笔记本电脑”等关键词时，上亿条数据的商品名字段逐行扫描，性能跟不上。而且不能分词，如搜索“笔记本电脑”，只能搜索完全和关键词一样的数据，那么数据量小时，搜索“笔记本
阅读更多2024-11-07
本地使用conda创建django虚拟环境
Django与python 的版本号一定要匹配，我就是在这块卡了好久，总是运行不成功。
阅读更多2024-11-07
3种最难学习和最容易学习的 3 种编程语言
无论您是想改变职业方向还是扩展程序员的技能，您选择学习的语言都会显着影响您的时间投入和前景。一些语言使用熟悉的语法，欢迎为繁重的工作提供最少的代码命令，并且是开源的，具有有用的开发人员社区，可指导用户
阅读更多2024-11-07
测试分层：减少对全链路回归依赖的探索！
引言：测试分层与全链路回归的挑战、在软件开发和测试过程中，全链路回归测试往往是一个复杂且耗费资源的环节，尤其在系统庞大且模块众多的场景下，全链路测试的集成难度显著提高。而“测试分层”作为一种结构化的测
阅读更多2024-11-07
反向代理模块
反向代理是指以代理服务器来接收客户端的请求，然后将请求转发给内部网络上的服务器，将从服务器上得到的结果返回给客户端，此时代理服务器对外表现为一个反向代理服务器。不适用代理的情况下，外网不能访问企业内网
阅读更多2024-11-07
Spark程序的监控
本地的程序，访问地址是：http://localhost:4040。
阅读更多2024-11-07
WPS单元格重复值提示设置
当出现单元格值重复时，重复的单元格就会自动变化。选中要检查的所有的单元格。
阅读更多2024-11-07
SQLite数据库是什么？DB Browser for SQLite是什么？
它以其强大的功能和用户友好的界面，成为了广大开发者和日常用户管理SQLite数据库的首选工具。**无论您是专业的数据库管理员，还是初学者，DB Browser都能为您提供便捷、高效的数据库管理体验。D
阅读更多2024-11-07