机器学习-交叉验证

🕗 发布于 2025-01-19 06:42 机器学习 人工智能 深度学习

交叉验证 (Cross-Validation) 是一种评估模型性能和选择模型参数的统计学方法，特别是在数据量有限的情况下。它比简单地将数据分成训练集和测试集更加可靠，因为它利用了所有的数据进行训练和测试。

什么是交叉验证？

交叉验证的基本思想是将数据集分成 K 个大小相似的子集（称为“折叠”或“组”，folds）。然后，依次将每个子集作为测试集，其余 K-1 个子集合并作为训练集，训练并测试模型。这个过程重复 K 次，每个子集都会被用作一次测试集。最后，将 K 次测试的结果（例如准确率、误差等）取平均值作为模型的最终性能评估。

最常见的交叉验证类型是 K 折交叉验证 (K-Fold Cross-Validation)。

K 折交叉验证的步骤：

数据分割: 将数据集随机分成 K 个大小相似的子集（通常 K 取 5 或 10）。

迭代训练和测试:

对于每个子集 i (i = 1, 2, …, K):

将子集 i 作为测试集。

将其余 K-1 个子集作为训练集。

使用训练集训练模型。

使用测试集评估模型性能，并记录结果（例如准确率）。

性能评估: 计算 K 次测试结果的平均值，作为模型的最终性能评估指标。

其他类型的交叉验证:

留一交叉验证 (Leave-One-Out Cross-Validation, LOOCV): K 折交叉验证的特例，其中 K 等于样本数量。每次只留下一个样本作为测试集，其余样本作为训练集。计算成本较高，但在样本量较小时比较有用。

分层 K 折交叉验证 (Stratified K-Fold Cross-Validation): 确保每个子集中的类别比例与整个数据集中的类别比例相同。这对于分类问题，特别是类别不平衡的情况非常重要。

如何通过交叉验证选择正则化参数？

交叉验证可以用来选择最佳的正则化参数（例如 L1 或 L2 正则化中的 λ）。以下是具体步骤：

确定参数范围: 为正则化参数 λ 选择一个候选值范围（例如 [0.001, 0.01, 0.1, 1, 10]）。

对每个 λ 值执行 K 折交叉验证:

使用选定的 λ 值训练模型。

执行 K 折交叉验证，并记录每个 λ 值对应的平均性能指标（例如平均准确率或平均误差）。

选择最佳 λ 值: 选择在交叉验证中表现最好的 λ 值（例如，具有最高平均准确率或最低平均误差的 λ 值）作为最终模型的正则化参数。

示例：

假设我们使用 L2 正则化 (Ridge Regression) 训练一个线性回归模型，并使用 5 折交叉验证来选择最佳的 λ 值。

我们选择 λ 的候选值范围为 [0.001, 0.01, 0.1, 1, 10]。

对于每个 λ 值（例如 λ = 0.001）：

我们将数据分成 5 份。

我们进行 5 次迭代，每次使用 4 份数据进行训练，1 份数据进行测试，并记录测试误差。

我们计算这 5 次测试误差的平均值，作为 λ = 0.001 时的交叉验证误差。

我们对每个 λ 值重复步骤 2，得到每个 λ 值对应的交叉验证误差。

我们选择交叉验证误差最低的 λ 值作为最终模型的正则化参数。

总结：

交叉验证是一种评估模型性能和选择模型参数的强大技术。通过在不同的数据子集上训练和测试模型，交叉验证可以提供对模型泛化能力的更可靠的估计，并帮助我们选择最佳的正则化参数，从而构建更准确、更鲁棒的机器学习模型。使用交叉验证选择正则化参数可以有效地防止过拟合并提高模型的泛化能力。

原文地址：https://blog.csdn.net/qq_45993770/article/details/145230159

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：利用@WebMvcTest测试Spring MVC应用
下一篇：Appium 检查安装的驱动

Mono里运行C#脚本31—mono_arch_create_generic_trampoline
mono_arch_create_generic_trampoline` 函数的主要功能是创建一个通用的跳板（trampoline）代码。此函数根据传入的跳板类型 `tramp_type`、是否为 A
阅读更多2025-01-20
Git下载&安装
Git下载&安装
阅读更多2025-01-20
ubuntu 22.04 安装搜狗输入法
我们找个输入框，按住ctrl+空格，切换搜狗输入法出来。根据系统格式选择下载，我这边选择的是X86_64。如下输入命令后返回版本号即为成功。进入终端，输入以下命令。重启后我们点击右上角的。3.测试是否
阅读更多2025-01-20
三、Spring 应用分层
应⽤分层是⼀种软件开发设计思想,它将应⽤程序分成N个层次,这N个层次分别负责各⾃的职责,多个层次之间协同提供完整的功能.根据项⽬的复杂度,把项⽬分成三层,四层或者更多层. 常⻅的MVC设计模式,就是
阅读更多2025-01-20
满足不同场景的需求的智慧物流开源了
智慧物流视频监控平台是一款功能强大且简单易用的实时算法视频监控系统。它的愿景是最底层打通各大芯片厂商相互间的壁垒，省去繁琐重复的适配流程，实现芯片、算法、应用的全流程组合，从而大大减少企业级应用约95
阅读更多2025-01-20
【Git】Git配置
在本地计算机中，配置Git全局信息，如用户名、邮箱等，在使用gitlog命令时会显示。
阅读更多2025-01-20
缓存商品&购物车
上篇文章我们实现了展示菜品数据、口味数据、套餐数据、套餐内菜品数据，因为这些数据都存储在服务器的数据库之中，如果短时间内有大量的用户进行点餐操作，系统就会频繁的与数据库进行交互，数据库的访问压力随之增
阅读更多2025-01-20
20250116面试鸭特训营第24天
20250116面试鸭特训营第24天
阅读更多2025-01-20
【氮化镓】集成ESD提高GaN HEMT稳定性
这项工作提出了一种与GaN功率高电子迁移率晶体管(HEMT)单片集成的栅极静电放电(ESD)保护电路。除了增强栅极对ESD事件的鲁棒性外，该多功能电路还提高了功率HEMT正常开关操作时导通电阻(RON
阅读更多2025-01-20
【Vim Masterclass 笔记20】第九章：Vim 的个性化设置 + S09L38：Vim 设置与 vimrc 文件的用法示例（一）
本篇为《VimMasterclass》第九章Vim自定义配置的第一部分（L38）的自学笔记，主要介绍了vimrc文件的基本操作、set命令详解、布尔选项，并对常见的Vim配置项进行了具体演示。笔记对视
阅读更多2025-01-20

机器学习-交叉验证

相关文章