【中短文--深度学习笔记】Batchsize的选择、批量归一化、loss是否已经收敛（更新中-ing）

🕗 发布于 2024-10-13 12:59 深度学习 笔记 人工智能

一、如何选择合适的Batchsize？

如果你没有任何参考，那么选择2的n次方（即64、128、256、512、1024等）可以会更加直接和易于管理。而对于上限来说，batchsize大小最好<=数据集样本数*0.1。

why?

梯度下降算法

在更新模型参数时，我们一般会用到梯度下降算法。这个时候，我们就会有一个问题，每次拿多少训练样本进行更新参数呢？

这个时候有两个极端情况：
（1）资源够，把所有数据都丢进去，我们称之为批量梯度下降法（Batch Gradient Descent，BGD）。
（2）另外一个极端，每次都拿一个数据去训练，此时我们称之为随机梯度下降法（Stochastic Gradient Descent，SGD）。
批量梯度下降法（BGD）的好处是稳定下降，loss下降得也快，但容易到极小值；而随机梯度下降法（SGD）的梯度上引入了随机噪声，因此在非凸优化问题中，其相比批量梯度下降更容易逃离局部最小值。

如果拿不同的批量来训练模型来做图像识别问题，实验结果如图所示，横轴是批量大小，纵轴是正确率。结果是可能出乎一部分人的意料：批量大小越大，验证集准确率越差。 这个是优化的问题，大的批量大小优化可能会有问题，小的批量大小优化的结果反而是比较好的。

我很赞同一种说法——有噪声可能是一种好事

有可能存在的解释是，批量梯度下降法因为沿着一个损失函数，所以比较容易出现局部极小值或者鞍点。而小批量梯度下降法每次都是挑一次批量计算损失，所以每一次更新参数的时候所使用的损失函数是有差异的。

选到第一个批量的时候，用L1计算梯度；选到第二个批量的时候，用L2计算梯度。
假设用L1算梯度的时候，梯度是零，就会卡住。但L2的函数跟L1又不一样，L2不一定会卡住，可以换下个批量的损失L2计算梯度，模型还是可以训练，还是有办法让损失变小，所以这种有噪声的更新方式反而对训练其实是有帮助的。

On Large-Batch Training for Deep Learning: Generalization Gap and Sharp Minima 中，作者在不同数据集上训练了六个网络（包括全连接网络、不同的卷积神经网络），在很多不同的情况都观察到一样的结果。
在小的批量中，一个批量里面有256笔样本。在大的批量中，批量大小等于数据集样本数乘0.1,大的批量跟小的批量的训练准确率（accuracy）差不多。 但就算是在训练的时候结果差不多，测试的时候，大的批量比小的批量差，代表过拟合。

二、批量归一化的好处

三、我们是怎样判断模型的loss已经收敛的？

最后，附上学习参考（更新中-ing）：

理清一些可能被忽视但重要的知识点，更有助于我们进步。
希望和你一起打好基础，稳步进步。
你的点赞、评论和关注是对我最大的支持 ~ 谢谢！

原文地址：https://blog.csdn.net/weixin_54335478/article/details/142886693

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：架构设计笔记-8-系统质量属性与架构评估
下一篇：数据在内存中的存储【下】

Vue 项目中的自适应布局：px 转换成 vw/vh
在移动设备上，不同分辨率的屏幕对应的界面大小不同，这就需要。
阅读更多2024-10-13
【JS】消除头尾的换行符、空格符
删除 ckeditor 生成的文本的开头和结尾的额外换行符、空格符，但不删除文本本身之间的空格、换行内容。CKeditor的html标签包裹的内容处理
阅读更多2024-10-13
第六课 Vue中的条件语句指令
v-if指令与v-show的功能在部分场景重叠，常用语条件判断。
阅读更多2024-10-13
mysql隐藏索引
在 MySQL 8 中，隐藏索引（Invisible Indexes）是指一种特殊类型的索引，它并不真正被删除，而是被标记为“不可见”。当索引被标记为不可见时，查询优化器在生成查询计划时将忽略这个索引
阅读更多2024-10-13
网络安全（黑客）2024小白自学必看
。
阅读更多2024-10-13
安装rstudio-server
ROOT权限安装rstudio-server
阅读更多2024-10-13
小程序上传图片报错uploadFile:fail createUploadTask:fail url not in domain list怎么解决
我在碰到这个问题之后寻求多方询问了解到你请求接口数据写的是request合法域名,但是上传图片还要再uploadFile合法域名上面写,大意了哈哈哈哈哈,仅供大家参考。大家有时候会遇到这种错误束手无措
阅读更多2024-10-13
《使用Gin框架构建分布式应用》阅读笔记：p1-p19
执行go get 或者 go install 命令后package会被安装到哪里？参考：https://go.dev/ref/mod#go-installVSCode结合WSL使用后，路径把人绕晕了。
阅读更多2024-10-13
Elasticsearch介绍和使用
与传统的正向索引（如书籍的目录，根据内容的位置来查找内容）不同，倒排索引是根据内容来查找其位置。在文本搜索领域，倒排索引将每个词（或称为“词条”“术语”）与包含该词的文档列表相关联。在实际应用中，可以
阅读更多2024-10-13
在SpringBoot+VUE中实现登录-RSA的加密解密
【代码】在SpringBoot+VUE中实现登录-RSA的加密解密。
阅读更多2024-10-13