决策树和集成学习、随机森林

🕗 发布于 2024-07-25 11:08 决策树集成学习随机森林

决策树是非参数学习算法，可以解决分类问题，天然可以解决多分类问题（不同于逻辑回归或者SVM，需要通过OVR，OVO的方法），也可以解决回归问题，甚至是多输出任务，并且决策树有非常好的可解释性。决策树功能强大，能够拟合复杂的数据集。

在这里插入图片描述

在线dot转换png
https://onlineconvertfree.com/zh/

在这里插入图片描述

对于二分类：
$\cdot log(p) - (1-p) \cdot log(1-p)$

通过信息熵可以看到当前数据的不确定度。对于决策树，在根节点上要找到一个维度和一个阈值，对根节点进行划分，划分之后希望整体信息熵减小，进而对于划分出来的两个子节点重复递归划分的方法，逐步减小整体的信息熵。

在这里插入图片描述
对于二分类：
$\begin{aligned} G &= 1 - p^2 - (1-p)^2 \\ &= 1 - p^2 -1 + 2p - p^2 \\ &= -2p^2 + 2p \end{aligned}$

在这里插入图片描述

每次都是对半划分，决策树高度：logm
维度：n，样本：m ，遍历：n*m

在这里插入图片描述

在这里插入图片描述
如使用 CART 的方式，在每个叶子节点都包含若干个数据，如果这些数据的输出值是类别的话，则可以在叶子结点中让数据进行投票，归为多的一类的数据的类别。

在这里插入图片描述

决策树的局限性
1、
在这里插入图片描述
2、

集成学习

在这里插入图片描述

在这里插入图片描述

虽然分为 A 类只有两票，但是认为是 A 类的概率非常高，而分为 B 类的票数虽然是三票，都是得到的确定性都不太大。

在这里插入图片描述

在这里插入图片描述

每个子模型可以用同一个算法，这样子模型之间的数据不同，是存在有一定的差异性。

和集成学习的不同，不需要使用多种算法，使用一种算法就可以创建差异性
Bagging：使用随机取样的方式，包括在特征空间中随机取特征，创建诸多的子模型，把它们集成在一起。
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
通过 n_jobs 参数控制并行运行的核数

在这里插入图片描述

在Bagging中，使用的集成学习的方式（基础分类器）是决策树，集成了很多决策树的集成学习，由于采用了随机取样的方式，具有随机性，所以叫做随机森林。

在这里插入图片描述

Extra-Trees：极其随机的随机森林，极其随机的特性表现在决策树节点的划分上。

在这里插入图片描述

原文地址：https://blog.csdn.net/hongzhen91/article/details/99763486

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：【MySQL】：在Centos 7 环境下的安装
下一篇：Ansible的脚本-----playbook剧本【下】

Android 源码编译资料集
1、window环境下载Android系统源代码的方法。
阅读更多2024-11-18
Forge Reasoning API推理能力
Forge Reasoning API结合了多种研究突破，包括Hermes模型系列、混合代理（Mixture of Agents）、代码链（Chain of Code）和蒙特卡洛树搜索（Monte C
阅读更多2024-11-18
Git Bash + VS Code + Windows11 Git命令报错莫名奇妙的问题
怀疑是某个环境变量（比如HOME 或者 GIT_CONFIG_GLOBAL ）存储了路径，没有被git bash正确处理转义字符。1. vscode settings 设置环境变量 GIT_CONF
阅读更多2024-11-18
小程序23-页面的跳转：navigation 组件详解
小程序中，如果需要进行跳转，需要使用navigation 组件，常用属性：
阅读更多2024-11-18
elasticsearch的倒排索引是什么？
elasticsearch的倒排索引是什么？
阅读更多2024-11-18
信息安全设计实验3 1-3学时
这个段错误可能是由于动态库 libgm3000.1.0.so 中的内存访问错误引起的。据推测，可能需要检查库文件的完整性和兼容性，以及代码中的指针和内存操作。这进一步确认了上述错误，指出地址 0x30
阅读更多2024-11-18
悬浮窗，ViewPager2内嵌套RecyclerView，RecyclerView高度异常的问题分析
在一个Adnroid项目中，使用到了悬浮窗，其中有一个需求是以分页的显示显示媒体item，每一页中展示的媒体item是一个网格列表的形式显示的。
阅读更多2024-11-18
手写模拟Spring Boot自动配置功能
首先，我们定义一个自动配置属性类，用于存储配置信息。这个类将使用@ConfigurationProperties注解进行标记，以便Spring Boot能够将其属性与配置文件中的值进行绑定。java复
阅读更多2024-11-18
学了Arcgis的水文分析——捕捉倾泻点，河流提取与河网分级，3D图层转要素失败的解决方法，测量学综合实习网站存着
ArcGIS水文分析实战教程（7）细说流域提取_汇流域栅格-CSDN博客ArcGIS水文分析实战教程（6）河流提取与河网分级_arcgis的dem河流分级-CSDN博客ArcGIS水文分析实战教程（5
阅读更多2024-11-18
TensorFlow 2.0 windows11 GPU 训练环境配置
在一切开始之前，请确保你的cmd命令行和powershell命令行可以正常打开。如果不能，建议重装系统。我不确定这是否会影响你最终的结果，毕竟windows的坑太多了。安装顺序：visual stud
阅读更多2024-11-18

决策树 和 集成学习、随机森林

集成学习

相关文章

决策树和集成学习、随机森林