机器学习决策树

🕗 发布于 2024-11-16 15:20 机器学习 决策树

决策树-分类

1 概念

1、决策节点通过条件判断而进行分支选择的节点。如：将某个样本中的属性值(特征值)与决策节点上的值进行比较，从而判断它的流向。

2、叶子节点没有子节点的节点，表示最终的决策结果。

3、决策树的深度所有节点的最大层次数。

决策树具有一定的层次结构，根节点的层次数定为0，从下面开始每一层子节点层次数增加

决策树优点：

可视化 - 可解释能力-对算力要求低

决策树缺点：

容易产生过拟合，所以不要把深度调整太大了。

集成学习方法之随机森林

机器学习中有一种大类叫集成学习（Ensemble Learning），集成学习的基本思想就是将多个分类器组合，从而实现一个预测效果更好的集成分类器。集成算法可以说从一方面验证了中国的一句老话：三个臭皮匠，赛过诸葛亮。集成算法大致可以分为：Bagging，Boosting 和 Stacking 三大类型。

（1）每次有放回地从训练集中取出 n 个训练样本，组成新的训练集；

（2）利用新的训练集，训练得到M个子模型；

（3）对于分类问题，采用投票的方法，得票最多子模型的分类类别为最终的类别；

随机森林就属于集成学习,是通过构建一个包含多个决策树(通常称为基学习器或弱学习器)的森林，每棵树都在不同的数据子集和特征子集上进行训练，最终通过投票或平均预测结果来产生更准确和稳健的预测。这种方法不仅提高了预测精度，也降低了过拟合风险，并且能够处理高维度和大规模数据集

from sklearn.ensemble import RandomForestClassifier
import pandas as pd 
from sklearn.feature_extraction import DictVectorizer
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split

data=pd.read_csv("../src/titanic/titanic.csv")
data["age"].fillna(data["age"].mode()[0],inplace=True)
X=data[["pclass","age","sex"]]
y=data["survived"]
data.drop(["survived"],axis=1,inplace=True)
dict=data.to_dict(orient="records")
vec=DictVectorizer(sparse=False)
x=vec.fit_transform(dict)
x_train,x_test,y_train,y_test=train_test_split(x,y,test_size=0.25,random_state=666)
scaler=StandardScaler()
x_train1=scaler.fit_transform(x_train)
model=RandomForestClassifier(n_estimators=100,max_depth=8,criterion="gini")
model.fit(x_train1,y_train)
x_test=scaler.transform(x_test)
rank=model.score(x_test,y_test)
print(rank)

原文地址：https://blog.csdn.net/qq_71751106/article/details/143805814

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：用EXCEL一列数据拼接SQL的where条件in语句
下一篇：HTTP CRLF注入攻击

二维费用背包问题
还是分为选和不选第 i 个元素，如果不选就是继承上一个状态 dp[i - 1][j][k]，如果选，由于总人数不能超过 j ，是需要 j >= g[i] 的，也就是 j - g[i] 不能小于
阅读更多2024-11-19
LeetCode17：电话号码的字母组合
这个题目也就是先使用一个映射定义好字符与数字的映射关系，然后再根据回溯三部曲来去写这个题目。
阅读更多2024-11-19
TypeScript中泛型的详细介绍
在TypeScript（TS）中，泛型（Generics）是一种强大的特性，它允许在定义函数、接口或类时不预先指定具体的类型，而是在使用的时候再指定类型。这种参数化类型的方式使得代码更加灵活和可复用。
阅读更多2024-11-19
String类型
regionMatches` 是 Java 中 `String` 类的一个方法，它用于比较两个字符串在指定区域内的子串是否相等。类的行为都是非法的。- 返回值：一个整数，表示调用该方法
阅读更多2024-11-19
大模型呼叫中心，如何建设坐席辅助系统？
综上所述，建设大模型呼叫中心坐席辅助系统需要综合考虑多个方面，从需求分析和设计到系统上线运行和优化升级，每个步骤都至关重要。通过选择合适的系统解决方案、配置高性能的硬件设备、集成先进的软件系统以及持续
阅读更多2024-11-19
《生成式 AI》课程第4講：訓練不了人工智慧？你可以訓練你自己 (中)
这一系列的作业是为 2024 年春季的《生成式 AI》课程设计的，共包含十个作业。每个作业都对应一个具体的主题，例如真假难辨的世界、AI 应用开发、AI催眠大师、LLM 微调等。承接上一讲：《生成式
阅读更多2024-11-19
【C++】哈希表的实现详解
在顺序结构以及平衡树中，元素关键码与其存储位置之间没有对应的关系，因此在查找一个元素时，必须要经过关键码的多次比较。顺序查找时间复杂度为O(N)，平衡树中为树的高度，即O(logN)，搜索的效率决于搜
阅读更多2024-11-19
Leetcode 有效的数独
这段代码解决的是的问题，其算法思想是基于。falsetrue。
阅读更多2024-11-19
小林Coding—Java「五、Java虚拟机面试篇」
小林Coding—Java「五、Java虚拟机面试篇」笔记整理
阅读更多2024-11-19
一个简单的图像分类项目（九）并行训练的学习：多GPU的DP（DataParallel数据并行）
将电脑装成Ubuntu、Windows双系统，并在Ubuntu上继续学习。在现代深度学习中，多主机多GPU训练已经变得非常常见，尤其是对于大规模模型和数据集。最简单和早期的并行计算比如NVIDIA的S
阅读更多2024-11-19

机器学习 决策树

决策树-分类

1 概念

集成学习方法之随机森林

相关文章

机器学习决策树