深度模型训练优化

🕗 发布于 2024-11-09 11:39 人工智能 机器学习 算法

模型偏差可能会影响模型训练。举个例子，假设模型过于简单，一个有未知参数的函数代 θ1 得到一个函数fθ1 (x)，同理可得到另一个函数fθ2 (x)，把所有的函数集合起来得到一个函数的集合。但是该函数的集合太小了，没有包含任何一个函数，可以让损失变低的函数不在模型可以描述的范围内。在这种情况下，就算找出了一个θ∗，虽然它是这些蓝色的函数里面最好的一个，但损失还是不够低。这种情况就是想要在大海里面捞针（一个损失低的函数），结果针根本就不在海里。

这个时候重新设计一个模型，给模型更大的灵活性。以第一章的预测未来观看人数为例，可以增加输入的特征，本来输入的特征只有前一天的信息，假设要预测接下来的观看人数，用前一天的信息不够多，用56天前的信息，模型的灵活性就比较大了。也可以用深度学习，增加更多的灵活性。所以如果模型的灵活性不够大，可以增加更多特征，可以设一个更大的模型，可以用深度学习来增加模型的灵活性，这是第一个可以的解法。但是并不是训练的时候，损失大就代表一定是模型偏差，可能会遇到另外一个问题：优化做得不好。

一般只会用到梯度下降进行优化，这种优化的方法很多的问题。比如可能会卡在局部最小值的地方，无法找到一个真的可以让损失很低的参数，如图1(a)所示。如图1(b)所示蓝色部分是模型可以表示的函数所形成的集合，可以把θ代入不同的数值，形成不同的函数，把所有的函数通通集合在一起，得到这个蓝色的集合。这个蓝色的集合里面，确实包含了一些函数，这些函数它的损失是低的。但问题是梯度下降这一个算法无法找出损失低的函数，梯度下降是解一个优化的问题，找到θ∗ 就结束了。但θ∗ 的损失不够低。这个模型里面存在着某一个函数的损失是够低的，梯度下降没有给这一个函数。这就像是想大海捞针，针确实在海里，但是无法把针捞起来。训练数据的损失不够低的时候，到底是模型偏差，还是优化的问题呢。找不到一个损失低的函数，到底是因为模型的灵活性不够，海里面没有针。还是模型的灵活性已经够了，只是优化梯度下降不给力，它没办法把针捞出来到底是哪一个。到底模型已经够大了，还是它不够大，怎么判断这件事呢？

图1 优化方法的问题

一个建议判断的方法，通过比较不同的模型来判断模型现在到底够不够大。举个例子，这一个实验是从残差网络的论文“DeepResidual Learning for Image Recognition”[1] 里面节录出来的。这篇论文在测试集上测试两个网络，一个网络有20层，一个网络有56层。图2(a) 横轴指的是训练的过程，就是参数更新的过程，随着参数的更新，损失会越来越低，但是结果 20 层的损失比较低，56层的损失还比较高。残差网络是比较早期的论文，2015年的论文。很多人看到这张图认为这个代表过拟合，深度学习不奏效，56层太深了不奏效，根本就不需要这么深。但这个不是过拟合，并不是所有的结果不好，都叫做过拟合。在训练集上，20层的网络损失其实是比较低的，56层的网络损失是比较高的，如图2(b)所示，这代表56层的网络的优化没有做好，它的优化不给力。

图2 残差网络的例子

Q：如何知道是56 层的优化不给力，搞不好是模型偏差，搞不好是56层的网络的模型灵活性还不够大，它要156层才好，56层也许灵活性还不够大？ A：但是比较56层跟20层，20层的损失都已经可以做到这样了，56层的灵活性一定比20 层更大。如果56 层的网络要做到20层的网络可以做到的事情，对它来说是轻而易举的。它只要前20层的参数，跟这个20层的网络一样，剩下36层就什么事都不做，复制前一层的输出就好了。如果优化成功，56层的网络应该要比20层的网络可以得到更低的损失。但结果在训练集上面没有，这个不是过拟合，这个也不是模型偏差，因为56层网络灵活性是够的，这个问题是优化不给力，优化做得不够好。

这边给大家的建议是看到一个从来没有做过的问题，可以先跑一些比较小的、比较浅的网络，或甚至用一些非深度学习的方法，比如线性模型、支持向量机（SupportVectorMachine， SVM），SVM 可能是比较容易做优化的，它们比较不会有优化失败的问题。也就是这些模型它会竭尽全力的，在它们的能力范围之内，找出一组最好的参数，它们比较不会有失败的问题。因此可以先训练一些比较浅的模型，或者是一些比较简单的模型，先知道这些简单的模型，到底可以得到什么样的损失。

接下来还缺一个深的模型，如果深的模型跟浅的模型比起来，深的模型明明灵活性比较大，但损失却没有办法比浅的模型压得更低代表说优化有问题，梯度下降不给力，因此要有一些其它的方法来更好地进行优化。

举个观看人数预测的例子，如图3 所示，在训练集上面，2017 年到 2020 年的数据是训练集，1层的网络的损失是280，2层就降到180，3层就降到140，4层就降到100。但是测5层的时候结果变成340。损失很大显然不是模型偏差的问题，因为4层都可以做到100 了，5 层应该可以做得更低。这个是优化的问题，优化做得不好才会导致造成这样子的问题。如果训练损失大，可以先判断是模型偏差还是优化。如果是模型偏差，就把模型变大。假设经过努力可以让训练数据的损失变小，接下来可以来看测试数据损失；如果测试数据损失也小，比这个较强的基线模型还要小，就结束了。

图3 层数越深，损失反而变大

但如果训练数据上面的损失小，测试数据上的损失大，可能是真的过拟合。在测试上的结果不好，不一定是过拟合。要把训练数据损失记下来，先确定优化没有问题，模型够大了。接下来才看看是不是测试的问题，如果是训练损失小，测试损失大，这个有可能是过拟合。

原文地址：https://blog.csdn.net/u013963578/article/details/143641530

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：STM32移植RT-Thread---时钟管理
下一篇：文件读写操作：write(buffer)方法可能没有完全写出buffer里的数据的情况

hhdb数据库介绍(10-6)
介绍hhdb管理平台升级中心的相关内容
阅读更多2024-11-27
网络接入控制——用户身份识别与接入认证
没有认证，你的心会碎掉吗？
阅读更多2024-11-27
SpringBoot中忽略实体类中的某个属性不返回给前端的方法
SpringBoot中忽略实体类中的某个属性不返回给前端的方法：使用Jackson的方式：//第一种方式，使用@JsonIgnore注解标注在属性上，忽略指定属性public class Prope
阅读更多2024-11-27
端口port常识
端口（Port）用于区分不同的服务或进程。在网络通信中，每个运行在计算机上的进程都会通过一个端口来与其他计算机上的进程进行通信。了解这些基本的端口知识和使用常识可以帮助你更好地管理网络服务和提高网络安
阅读更多2024-11-27
AI领域一些技术和概念
LLM 可以对广泛的主题进行推理，但他们的知识仅限于他们接受培训的特定时间点之前的公共数据。如果要构建可以推理私有数据或模型截止日期后引入的数据的 AI 应用程序，则需要使用模型所需的特定信息来增强模
阅读更多2024-11-27
Rust编程与项目实战-模块std::thread（之二）
但是，程序通常需要特定的支持才能利用超过64个逻辑CPU，并且在没有此类支持的情况下，此函数返回的数字准确地反映了程序默认可以使用的逻辑CPU的数量。move闭包通常和thread::spawn函数一
阅读更多2024-11-27
数据结构与算法——1120——时间空间效率问题&&求边界值
效率问题与变化有关效率排序：常对幂指阶。
阅读更多2024-11-27
Java全栈开发 - 视频网站实战教程
Spring Boot项目开发全流程主流技术栈的整合使用分布式系统架构设计性能优化最佳实践后续我们将逐步完善各个功能模块的具体实现,敬请期待!
阅读更多2024-11-27
CTF之密码学（BF与Ook）
简介：特点：简介：特点：例题：ok - Bugku CTF平台，.!? - Bugku CTF平台（这个是变形题可以试着解解看）
阅读更多2024-11-27
基于预测反馈的情感分析情境学习
这篇文章的主要内容是关于如何通过预测反馈来改善大型语言模型（LLMs）在情感分析中的上下文内学习（In-Context Learning, ICL）能力。文章提出了一个框架，该框架通过以下三个步骤来增
阅读更多2024-11-27

深度模型训练优化

相关文章