11.15 机器学习-集成学习方法-随机森林

🕗 发布于 2024-11-16 06:59 机器学习

# 机器学习中有一种大类叫**集成学习**（Ensemble Learning），集成学习的基本思想就是将多个分类器组合，从而实现一个预测效果更好的集成分类器。集成算法可以说从一方面验证了中国的一句老话：

# 三个臭皮匠，赛过诸葛亮。集成算法大致可以分为：Bagging，Boosting 和 Stacking 三大类型。

# （1）每次有放回地从训练集中取出 n 个训练样本，组成新的训练集；

# （2）利用新的训练集，训练得到M个子模型；

# （3）对于分类问题，采用投票的方法，得票最多子模型的分类类别为最终的类别；

# 就是把多个分类器组合起来用每个分类器都从训练集里面拿一部分（有放回的）数据进行训练最后得到了很多个模型组成的一个集成模型各个模型拿的数据集可能有重合部分

# # 行和列都会随机选数据个数和特征个数关注点不一样

# 然后传入一个数据拿去预测集成模型里面的每个子模型都会给一个结果然后看结果最多的那个当做数据的结果

# **随机森林**就属于集成学习,是通过构建一个包含多个决策树(通常称为基学习器或弱学习器)的森林，每棵树都在不同的数据子集和特征子集上进行训练，

# 最终通过投票或平均预测结果来产生更准确和稳健的预测。这种方法不仅提高了预测精度，也降低了过拟合风险，并且能够处理高维度和大规模数据集

# - 随机: 特征随机，训练集随机

# - 样本：对于一个总体训练集T，T中共有N个样本，每次有放回地随机选择n个样本。用这n个样本来训练一个决策树。

# - 特征：假设训练集的特征个数为d，每次仅选择k(k<d)个来构建决策树。

# - 森林: 多个决策树分类器构成的分类器, 因为随机，所以可以生成多个决策树

# - 处理具有高维特征的输入样本，而且不需要降维

# - 使用平均或者投票来提高预测精度和控制过拟合

# 不需要降维因为已经特征选择随机了

# API

# class sklearn.ensemble.RandomForestClassifier

# 参数：

# n_estimators int, default=100

# 森林中树木的数量。(决策树个数)

# criterion {“gini”, “entropy”}, default=”gini” 决策树属性划分算法选择

# 当criterion取值为“gini”时采用基尼不纯度（Gini impurity）算法构造决策树，

# 当criterion取值为 “entropy” 时采用信息增益（ information gain）算法构造决策树.

# max_depth int, default=None 树的最大深度。

from sklearn.ensemble import RandomForestClassifier

from sklearn.datasets import load_iris

from sklearn.feature_extraction import DictVectorizer

from sklearn.feature_selection import VarianceThreshold

from sklearn.model_selection import train_test_split

from sklearn.preprocessing import StandardScaler

import pandas as pd

import numpy as np

def random_forest1():

df1=pd.read_csv("assets/csv/titanic.csv")

df1["age"].fillna(df1["age"].mode()[0],inplace=True)

x=df1.drop(["embarked","home.dest","room","ticket","boat","survived"],axis=1)

y=df1["survived"]

y=y.to_numpy()

# print(x)

# print(y)

x=x.to_dict(orient="records") # df转字典字典进行字典的那个处理

vector1=DictVectorizer(sparse=False)

x=vector1.fit_transform(x)

x_train,x_test,y_train,y_test=train_test_split(x,y,random_state=666,train_size=0.8)

scaler1=StandardScaler()

x_train_stand=scaler1.fit_transform(x_train)

x_test_stand=scaler1.transform(x_test)

forest1=RandomForestClassifier(n_estimators=100,criterion="gini",max_depth=3)

model1=forest1.fit(x_train_stand,y_train)

score1=model1.score(x_test_stand,y_test)

print(score1)

pass

if __name__=="__main__":

random_forest1()

pass

原文地址：https://blog.csdn.net/2401_86807530/article/details/143803123

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：24.11.13 机器学习特征降维(主成份分析) KNN算法交叉验证(K-Fold) 超参数搜索
下一篇：Linux之vim全选，全部复制，全部删除

免费申请 Let‘s Encrypt SSL 证书
在网络安全日益重要的今天，为网站启用 SSL 证书是保障数据安全和用户信任的关键。Let's Encrypt 提供的免费 SSL 证书是一个很好的选择。下面我们详细介绍如何为网站域名申请该证书。
阅读更多2024-11-16
Spring Boot 中使用 @Transactional 注解配置事务管理
Spring Boot 中使用 @Transactional 注解配置事务管理
阅读更多2024-11-16
自定义实体类中DateTime属性的序列化格式
本文介绍了Newtonsoft.Json与System.Text.Json下如何在实体上自定义DateTime类型的序列化格式。
阅读更多2024-11-16
阅读2020-2023年《国外军用无人机装备技术发展综述》笔记_作战无人机和察打无人机图鉴
本篇对2020-2023年《国外军用无人机装备技术发展综述》这几篇文章中所提到的作战无人机和察打无人机逐个更详细的介绍。
阅读更多2024-11-16
Flutter：InheritedWidget数据共享
未使用数据共享时，要传递数据，只能组件间一级一级向下传递。InheritedWidget数据共享，优化下上边代码。下边代码中，创建了一个按钮，当点击时。
阅读更多2024-11-16
Ubuntu22.04.2 k8s部署
Helm 是 Kubernetes 的一个包管理工具，类似于 Linux 下的 apt 或 yum。它可以帮助用户通过定义配置文件的方式来部署和管理 Kubernetes 应用，极大地简化了应用在 K
阅读更多2024-11-16
推荐一款全能网络视频下载工具：闪豆视频下载器
是一款网络视频，主要支持下载同时，软件还具备4K、1080p60、720p60、1080+、720p、480p、360p画质的视频下载，无论你想要哪种画质，在这里都能满足你。
阅读更多2024-11-16
3D电子商务是什么？如何利用3D技术提升销售转化？
3D电子商务，简而言之，就是利用3D产品模型来优化和提升在线购物体验的一种新型电商模式。它打破了传统二维图片的局限，使消费者能够以前所未有的方式“触摸”和感受商品。无论是家具、服装、电子产品还是艺术品
阅读更多2024-11-16
麒麟系统下docker搭建jenkins
执行这个命令后，我们将启动一个Jenkins容器，并且可以通过宿主机的7083端口访问Jenkins的Web界面，通过7084端口访问Jenkins的调试端口。同时，Jenkins的数据会被存储在宿主
阅读更多2024-11-16
前后端交互之动态列
在做项目时，有时候后会遇到后端使用了**聚合函数**，导致生成的**对象的属性数量或数量不固定**，因此无法建立一个与之对应的对象来向前端传递数据，这时可以采用NameDataListVO向前端传递
阅读更多2024-11-16

11.15 机器学习-集成学习方法-随机森林

相关文章