吴恩达深度学习笔记（3）--深度学习的实际应用

🕗 发布于 2024-10-16 11:57 深度学习 笔记 人工智能

训练、开发、测试集

目前超参数的确定依赖于实验迭代调整，将数据集划分为：训练、开发（验证）、测试集会使迭代效率更高。

如果数据少的时候用传统的分割方法：60/20/20，数据量大的时候则都可以。

确保开发和测试集的数据分布相同。

偏差-方差

目前关于偏差-方差的权衡讨论很少。

高偏差--欠拟合

高方差--过拟合

机器学习的基本原则

当模型训练好的时候：

检查模型是否高偏差，即模型在训练集数据上的表现，如果存在高偏差的情情况，可以尝试选择其他更合适的网络，如有更多隐藏层和隐藏单元的，或延长训练时间，选用其他优化方法
当偏差降低到可接受范围内后，判断方差，需要在开发集上判断，看模型是否具有一般化的能力，如果方差高，解决方法最好时取得更多的数据，有时候无法获取更多的数据，可以尝试正则化，或者更适合的网络

正则化：

如果出现方差过高，即过拟合情况，可以考虑使用正则化方法

在逻辑回归代价函数中加入正则化项：

在神经网络中：

矩阵的范数：

权重衰减：

加入正则化项之后，梯度变为：

梯度更新公式变为：

其中，<1,会给之前的权重矩阵一个衰减参数。

为什么正则化可以缓解过拟合

加入正则化项，正则化因子λ设置的足够大的情况下，为了使代价函数最小化，权重矩阵W就会被设置为接近于0的值。则相当于消除了很多神经元的影响，大的神经网络就会变成一个较小的网络.

对于激活函数而言，加入正则化项之后，z的值变小，近似于线性变换，整个网络就成为一个简单的近似线性的网络，从而不会发生过拟合。

dropout正则化（随机失活）

假如上述神经网络过拟合，随机失活技术遍历网络每一层，为dropout网络中的某个结点，设置一个概率值，50%概率被丢弃，消除那些结点的运算，得到一个相对小的神经网络。小的网络可以达到正则化的效果。

随机失活的方法：反向随机失活

理解dropout：

单个神经元的工作就是接收输入，并产生一些有意义的输出，加入了Dropout后，输入的特征都是有可能会被随机清除的，所以神经元不会再特别依赖于任何一个输入特征，因此给每一个输入较小的权重，可以达到收缩权重防止过度拟合的目的。如果某一层的参数过多，更容易发生过拟合，给这一层设置更低的留存率。

缺点是，这样做使得在交叉验证搜索时会有更多的超参数，因此可以对一些层使用dropout，其他不用，且dropout相同，这样就只产生了一个超参数。另一个缺点是，让代价函数不明确，去验证梯度下降算法时，不能依据随着迭代，代价函数值变小，不能用绘图方式判断迭代结果

PS:在测试阶段不要用dropout，因为那样会使得预测结果变得随机。

其他正则化方法：

扩增训练集：将图片数据水平翻转、随机裁剪图片（旋转放大）

早终止法：在运行梯度下降时，画一个训练误差的图，同时画出开发集误差

缺点：机器学习有很多步骤，其中获取代价函数最小有很多方式实现，即便优化了成本函数，我们希望不会过拟合，可以通过正则化等步骤实现，现在机器学习中增加了很多超参数。早终止的话，即增加超参数，又想避免过拟合，用一个工具解决两个问题，考虑的更复杂。

输入归一化：加速训练过程

以两个特征的训练集为例，需要两步实现

训练集和测试集应该以同样的方式实现归一化

1、中心化：计算每一个特征样本的数据均值，样本减去均值

2、方差归一化

归一化之前，需要较小的学习率多次迭代次数找到全局最优解

归一化之后，可以设置更大的学习效率，较少的迭代次数就能找到全局最优解

梯度的消失和爆炸

在训练深度神经网络时，损失函数的导数或者斜率很大，或者很小，导致训练变得很困难

出现的原因：在一个很深的网络，权参数系数矩阵只比单位阵大一点点，激活函数的值将以指数级递增，激活函数就会爆炸，只比单位阵小一点点就会消失，导致梯度下降超级缓慢

神经网络权重初始化

输入的数量n较大时，我们希望每个w i的值都小一些，这样它们的和得到的z也较小。

设置，

梯度的数值近似：

双侧差值：

梯度验证：可以找出反向传播中的错误

将网络中的参数全部连接起来，转换成一个向量

梯度验证不能在训练中使用，只能调试的时候用
如果梯度检验出问题，逐个检查看看哪个差距最大
不要忘记加入正则化项
梯度检验不能与随机失活一起使用，因为每一次迭代中随机失活随机消除，这时是难以计算dropout在梯度下降上的代价函数J；
最后虽然很少发生，但也是有可能的，当参数w和b接近0时，梯度下降是正确的，但是随着梯度下降的进行，w和b会增大，算法的精度有所下降，可以尝试在随机初始化的时候，运行梯度检验，之后训练网络一段时间，w和b将会在0附近摇摆一段时间，即很小的随机初始值，在进行几次训练的迭代后，再与运行梯度检验。吴恩达Coursera深度学习课程 DeepLearning.ai 提炼笔记（2-1）-- 深度学习的实践方面_cousera deeplearing笔记-CSDN博客

原文地址：https://blog.csdn.net/weixin_43899239/article/details/142927637

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：mysql 有哪些架构类型？
下一篇：鸿蒙开发（NEXT/API 12）【发送数据到服务器】远场通信场景

leetcode289:生命游戏
根据，简称为，是英国数学家约翰·何顿·康威在 1970 年发明的细胞自动机。给定一个包含m × n个格子的面板，每一个格子都可以看成是一个细胞。每个细胞都具有一个初始状态：1即为（live），或0即为
阅读更多2024-10-20
MongoDB数据恢复
注意：两个MongoDB的版本要一致，本文使用的是mongo:4.2.24。先把K8S上面的MongoDB 容器停止（可以把副本改成0）。1、将容器挂载MongoDB的数据目录备份到本地。经常是数据文
阅读更多2024-10-20
C#中实现事务
C#中实现事务
阅读更多2024-10-20
【LeetCode每日一题】——560.和为 K 的子数组
给你一个整数数组 nums 和一个整数 k ，请你统计并返回该数组中和为 k 的子数组的个数。子数组是数组中元素的连续非空序列。
阅读更多2024-10-20
「漏洞复现」满客宝智慧食堂系统 selectUserByOrgId 未授权访问漏洞
请勿利用文章内的相关技术从事非法测试，由于传播、利用此文所提供的信息而造成的任何直接或者间接的后果及损失，均由使用者本人负责，作者不为此承担任何责任。工具来自网络，安全性自测，如有侵权请联系删除。本次
阅读更多2024-10-20
React面试题目（从基本到高级）
React前端面试常见题目涵盖了React的基础概念、组件、状态管理、生命周期、性能优化等多个方面。
阅读更多2024-10-20
12.个人博客系统（Java项目基于spring和vue）
1 在校学习的学生，可用于日常学习使用或是毕业设计使用 2 毕业一到两年的开发人员，用于锻炼自己的独立功能模块设计能力，增强代码编写能力。 3 亦可以部署为商化项目使用。 4 需要完整资料及源码
阅读更多2024-10-20
YoloV8改进策略：注意力改进|DeBiFormer，可变形双级路由注意力|引入DeBiLevelRoutingAttention注意力模块（全网首发）
本次改进的核心在于将DeBiLevelRoutingAttention模块嵌入到YoloV8的主干网络中，具体位置是在SPPF（Spatial Pyramid Pooling Fast）模块之后。这一
阅读更多2024-10-20
word取消自动单词首字母大写
情况说明：在word输入单词后首字母会自动变成大写取消单词首字母大写步骤：（1）点击菜单栏文件（2）点击“更多”——>“选项”（3）点击“校对”——>“自动更正选项”（4）取消“句首字母大
阅读更多2024-10-20
web前端网页用户注册页面
【代码】web前端网页用户注册页面。
阅读更多2024-10-20