深度学习核心技术与实践之深度学习研究篇
非书中全部内容,只是写了些自认为有收获的部分。
Batch Normalization
向前传播
(1)三个主要任务:计算出每批训练数据的统计量。
对数据进行标准化
对标准化后的数据进行扭转,将其映射到表征能力更大的空间上
有效性分析
內部协移
(1)内部协移是由于神经网络中每层的输入发生了变化,造成每层的参数要不断地适应新分布的问题
(2)BN可以在数据经过多层神经网络后,重新回到均值为0、方差为1的分布上,解决了以上问题,使数据的变化分布变得稳定,训练过程也随之变得平稳,超参数的调整变得简单
梯度流
(1)BN能够减少梯度对参数的尺度或初始值的依赖,使得调参更加容易。
(2)BN允许网络接受更大的学习率,学习率的尺度不会明显影响所产生的梯度的尺度。
(3)由于梯度流的改善,模型能够更快地达到较高的精度
使用与优化方法
为了最大化发挥BN的优势,在使用BN的网络中,可以采用以下几种优化方法。
(1) 增大学习率。在BN模型中,增大学习率可以加快收敛速度,但不会对梯度流产生副作用。
(2)去掉Dropout。
(3)减少L2正则的权重。将L2正则减少到1/5
(4)提高学习率的衰减速度。使用了BN后的模型会更快地收敛,所以学习率也应该相应地减小到较低的值。
(5)更加彻底地随机化训练数据,以防止每批数据总是出现相同的样本
(6)减少图片扭曲。因为BN的训练速度更快,能够观察到的图片变少了,所以应该让模型尽可能地观察真实的图片
Attention
未完待续...
原文地址:https://blog.csdn.net/m0_73202283/article/details/135831386
免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!