5、交叉验证

🕗 发布于 2024-01-20 22:04 机器学习 人工智能

交叉验证

在本教程中，您将学习如何使用交叉验证来更好地衡量模型的性能。

本课程所需数据集夸克网盘下载链接：https://pan.quark.cn/s/9b4e9a1246b2
提取码：uDzP

文章目录

1、简介
2、什么是交叉验证
3、什么时候应该使用交叉验证?
4、举例
5、整体代码
6、总结

1、简介

机器学习是一个迭代的过程。

我们将面临使用什么预测变量、使用什么类型的模型、向这些模型提供什么参数等选择。到目前为止，您已经通过使用验证（或holdout）集来衡量模型质量以数据驱动的方式做出了这些选择。

但是，这种方法存在一些缺点。为了了解这一点，想象一下您有一个包含5000行的数据集。通常，您会将大约20%的数据保留为验证数据集，即1000行。但是这样做会在确定模型分数时留下一些随机机会。也就是说，一个模型可能在一组1000行上表现良好，即使在另一组1000行上表现不准确。

在极端情况下，您可以想象将验证集中只有1行数据。如果比较不同的模型，哪个在单个数据点上做出最好的预测将主要取决于运气！

一般来说，验证集越大，我们对模型质量的度量中随机性(即“噪声”)就越小，它就越可靠。不幸的是，我们只能通过从训练数据中删除行来获得一个大的验证集，而较小的训练数据集意味着更差的模型！

2、什么是交叉验证

在交叉验证中，我们对数据的不同子集运行建模过程，以获得模型质量的多个度量。

例如，我们可以将数据分成5个部分，每个部分占整个数据集的20%。

在这里插入图片描述

在本例中，我们将数据分成5个“折叠”。

在实验1中，我们使用第一个折叠作为验证集(或holdout)，其他所有内容作为训练数据。这给了我们一个基于20% holdout集的模型质量度量。
在实验2中，我们持有来自第二次折叠的数据(并且使用除第二次折叠以外的所有方法来训练模型)。然后使用holdout集对模型质量进行第二次估计。
我们重复这个过程,使用每一个折叠一次作为抵抗。把这个在一起,100%的数据被用作抵抗在某种程度上,我们最终得到的模型质量,是基于所有的行数据集(即使我们不同时使用所有行)。

3、什么时候应该使用交叉验证?

交叉验证为模型质量提供了更精确的度量，如果我们要做很多建模决策，这一点尤其重要。然而，它可能需要更长的时间来运行，因为它估计了多个模型(每个折叠一个)。

那么，考虑到这些权衡，我们应该在什么时候使用每种方法呢?对于小型数据集，额外的计算负担并不大，我们应该运行交叉验证。

对于小型数据集，额外的计算负担并不是什么大问题，你应该运行交叉验证。
对于较大的数据集，单个验证集就足够了。您的代码将运行得更快，并且您可能拥有足够的数据，因此不需要重复使用其中的一些数据。

对于什么构成了大数据集和什么构成了小数据集，没有简单的阈值。但是如果你的模型只需要几分钟或者更少的时间就能运行，那么换成交叉验证可能是值得的。

或者，你可以运行交叉验证，看看每个实验的分数是否接近。如果每个实验产生相同的结果，一个单一的验证集可能就足够了。

原文地址：https://blog.csdn.net/jiangxinufo00/article/details/135711197

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：【趣味题-04】20240120百鸡百钱（遍历循环排除，类似加减法）
下一篇：学习搭建Vuex环境总结

Win10下完全卸载Anaconda
在数据科学和机器学习的世界中，Anaconda是一款非常受欢迎的工具，它提供了一个方便的包管理系统和预装的科学计算库。然而，有时我们可能需要从系统中卸载Anaconda。本文将介绍在Windows 1
阅读更多2024-11-17
2025 年请假攻略！
今日面试题：什么是 Java 内部类？它有什么作用？
阅读更多2024-11-16
UDP协议
源端口：发送方进程bind的端口目的端口：接受方进程bind的端口udp的长度：包括报头和有效载荷最大为216（65535byte) 这就要求应用层将超过udp最大长度的数据，进行分割，分割为小于等
阅读更多2024-11-16
项目风险管理的3大要素
在项目管理领域，风险是一个具有双重性质的概念，它既包含可能带来积极影响的机会，也包含可能产生消极影响的威胁，然而，在日常交流中，人们往往只关注风险的负面方面，这种偏见可能导致错失利用潜在机会的可能性。
阅读更多2024-11-16
第3关 Java分支结构之多重if
多重 if 结构在 Java 编程中非常实用，可以根据不同的情况执行不同的代码，使程序更加灵活。但在使用时，要注意条件的顺序和合理性，以确保程序的正确性。在 Java 编程中，分支结构是控制程序流程的
阅读更多2024-11-16
用户态协议栈与内核模块通信机制
在传统的操作系统架构中，网络协议栈通常运行在内核态中，而应用程序则运行在用户态中。随着一些现代操作系统架构的变化，用户态协议栈逐渐成为一种趋势，尤其是对于高性能网络应用和定制协议栈的开发（例如：DPD
阅读更多2024-11-16
生成模型——PixelRNN与PixelCNN
PixelRNN 是一种基于循环神经网络（RNN）的像素级生成模型，通过逐个像素地生成图像来构建完整的图像，其核心思想是将图像中的像素视为序列，并利用 RNN 的能力来捕捉像素之间的依赖关系。Pixe
阅读更多2024-11-16
C/C++静态库引用过程中出现符号未定义的处理方式
【代码】静态库引用出现符号未定义的处理方式。
阅读更多2024-11-16
Docker compose部署Activemq
整个工具的代码都在Gitee或者Github地址内。
阅读更多2024-11-16
安全见闻8
声明：学习视频来自b站up主泷羽sec，如涉及侵权马上删除文章声明：本文主要用作技术分享，所有内容仅供参考。任何使用或依赖于本文信息所造成的法律后果均与本人无关。请读者自行判断风险，并遵循相关法律法
阅读更多2024-11-16

5、交叉验证

文章目录

1、简介

2、什么是交叉验证

3、什么时候应该使用交叉验证?

相关文章