集成学习算法学习笔记

🕗 发布于 2024-04-28 16:29 集成学习算法学习

一、集成学习的基本思想

三个臭皮匠顶一个诸葛亮

集成学习会考虑多个评估器的建模结果，汇总后得到一个综合的结果，以此来获取比单个模型更好的回归或分类表现。

很多独立的机器学习算法：决策树、神经网络、支持向量机

集成学习构建了一组基学习器，并将它们综合起来作为最终的模型。

在很多集成学习模型中，对基学习器的要求很低。

集成学习适用于机器学习的几乎所有领域：回归、分类、推荐和排序。

相同的多个基学习器不会带来任何提升，不同的模型取长补短，每个基学习器都会犯不同的错误，综合起来犯错的可能性不大。

上述数据集中，每个线性模型都不能成功将该数据集分类，3个线性模型的简单综合可将该数据集成功分类。

如何构建不同的学习器？

（1）采用不同的学习算法

（2）采用相同的学习算法，但使用不同的参数

（3）不同的数据集：不同的样本子集，在每个数据集中使用不同的特征

如何综合不同的基学习器？

（1）投票法（majority voting）：每个基学习器具有相同的权重

（2）有权重的投票（weighted voting）：可用不同的方法来确定权重

（3）训练一个新模型来确定如何综合：Stacking; 线性回归

主要的集成学习模式：

（1）Bagging：随机森林（random forest）

（2）Boosting：AdaBoost；Gradient Boosting Decision Tree

（3）Stacking

二、Bagging

boostrap aggregating 引导聚集算法

两个关键步骤：

（1）bootstrap取样

使用可重复取样从样本数为n的数据集中取出n个样本，假设每个样本被选中的概率是一样的

（2）模型综合

易于并计算

可以使用不在训练集Sj中的样本(out of bag sample, OOB)来估计基学习器的性能。

随机森林（Random Forests）

参数选择：

（1）决策数的数目m

（2）每个决策树的大小，由决策树叶节点所能包含的样本数的最大值决定

（3）每次选取最佳变量时随机选取的变量数d1

三、Boosting

boosting：提升

顺次建立一系列基学习器，后面的学习器分析当前已经建立的基学习器以更好的处理数据

（1）AdaBoost

（2）GBDT

基学习器的综合：一般使用有权重的线性组合；基学习器的权重一般由其性能决定

四、Stacking

原文地址：https://blog.csdn.net/m0_46521579/article/details/138249414

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：css中新型的边框设置属性border-inline
下一篇：书生·浦语大模型第二期实战营第七节-OpenCompass 大模型评测实战笔记和作业

无人机之姿态融合算法篇
对于输入的多个传感器数据，需要进行相应的预处理，如使用低通滤波器对加速度计的数据进行滤波，使用高通滤波器对陀螺仪的数据进行滤波。通过对算法的输出数据进行对比和分析，可以评估算法的精度、稳定性。同时，还
阅读更多2024-11-07
机器学习与成像技术：开启智能视觉的新篇章
1. 机器学习机器学习是人工智能的一个分支，它让计算机能够通过数据学习和改进，而无需进行明确的编程。机器学习的核心在于算法，这些算法能够从输入的数据中自动提取特征，并通过训练过程学习如何做出预测或决策
阅读更多2024-11-07
Pytest自动化测试框架详解
Pytest是一种基于Python编程语言的自动化测试框架，它提供了丰富的功能和灵活的扩展性，可以用于单元测试、集成测试、功能测试、端到端测试等多种场景。本文将介绍Pytest框架的基础知识，包括安装
阅读更多2024-11-07
Nature Methods | 基于流形约束的RNA速度推断精准解析细胞周期动态调节规律
这项研究介绍了一种新颖的RNA速度模型——VeloCycle，该模型基于流形约束的统计推断方法，旨在提高单细胞RNA测序数据中细胞周期速度变化的解析精度。与传统依赖启发式算法的RNA速度分析方法相比，
阅读更多2024-11-07
ATom：来自中央大学高分辨率气溶胶质谱仪（HR-AMS）的 L2 测量数据
该数据集提供了在美国国家航空航天局 ATom 任务飞行期间由高分辨率气溶胶质谱仪（HR-AMS）测量到的无机和有机物分离离子在大气中的浓度。所有四次 ATom 飞行任务的数据均已提供。HR-AMS 通
阅读更多2024-11-07
加入广告联盟有什么条件吗？
以一些知名的新闻资讯网站为例，它们凭借清晰的页面布局、丰富且有价值的内容，吸引了大量用户，从而满足了广告联盟对于网站质量的严格要求。与此同时，发布商还需要综合考虑广告联盟的信誉、支付方式、分成比例、服
阅读更多2024-11-07
JavaScript中，split() 的用法
在JavaScript中，split()方法是字符串对象的一个非常有用的方法，它允许你将一个字符串分割成多个子字符串，并将这些子字符串存储在一个数组中。这个方法通常用于处理包含分隔符（如逗号、空格、换
阅读更多2024-11-07
初学Java基础Day22---枚举
经验：一个类有固定几个对象，就用枚举代替。
阅读更多2024-11-07
简单记录某云创建云主机部署docker，能ping通外网而curl不通的问题
创建在Vxlan网络下的云主机部署docker后，启动docker服务后发现容器里可以解析ping通域名，curl访问却无法返回。
阅读更多2024-11-07
rabbitMQ RabbitTemplate 发送消息
当消息转发失败后就会触发ReturrnsCallback，会将消息返回给生产者，同时会返回与消息转发失败的相关信息（包含在参数returned内），可对此采取后续处理。消息发送确认机制：消息由prod
阅读更多2024-11-07