机器学习day5-随机森林和线性代数1

🕗 发布于 2024-11-16 06:58 机器学习 随机森林线性代数

十集成学习方法之随机森林

集成学习的基本思想就是将多个分类器组合，从而实现一个预测效果更好的集成分类器。大致可以分为：Bagging，Boosting 和 Stacking 三大类型。

（1）每次有放回地从训练集中取出 n 个训练样本，组成新的训练集；

（2）利用新的训练集，训练得到M个子模型；

（3）对于分类问题，采用投票的方法，得票最多子模型的分类类别为最终的类别；（取众数？平均数？）

随机森林属于集成学习,通过构建一个包含多个决策树(通常称为基学习器或弱学习器)的森林，每棵树都在不同的数据子集和特征子集上进行训练，最终通过投票或平均预测结果（取结果最多的数据作为预测数据）来产生更准确和稳健的预测。

优点：提高了预测精度，降低了过拟合风险，能够处理高维度和大规模数据集

1算法原理

随机: 特征随机，训练集随机（分类器是一样的，模型不一样）
- 样本：对于一个总体训练集T，T中共有N个样本，每次有放回地随机选择n个样本。用这n个样本来训练一个决策树。
- 特征：假设训练集的特征个数为d，每次仅选择k(k<d)个来构建决策树。
森林: 多个决策树分类器构成的分类器, 因为随机，所以可以生成多个决策树
处理具有高维特征的输入样本，而且不需要降维（在进行训练集分类的时候就相当于已经进行了降维）
使用平均或者投票来提高预测精度和控制过拟合

2API

class sklearn.ensemble.RandomForestClassifier

参数：
n_estimators：   int, default=100
森林中树木的数量。(决策树个数)

criterion：  {“gini”, “entropy”}, default=”gini” 决策树属性划分算法选择
    当criterion取值为“gini”时采用 基尼不纯度（Gini impurity）算法构造决策树；（基尼指数越小纯度越高，以最小的作为决策树第一层）
    当criterion取值为 “entropy” 时采用信息增益（ information gain）算法构造决策树.
    
max_depth：  int, default=None 树的最大深度。

eg1

from sklearn.ensemble import RandomForestClassifier
import pandas as pd
from sklearn.feature_extraction import DictVectorizer
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
#数据导入
data = pd.read_csv('./src/titanic/titanic.csv')
# print(data["age"].mode()[0])
#数据预处理
data["age"].fillna(data["age"].mode()[0],inplace=True)
# print(data.tail())
y=data[["survived"]].to_numpy()
# print(y)
data.drop(["survived"],axis=1,inplace=True)
# print(data.tail())
x=data[["age","sex","pclass"]]
#数据转换
dict1=x.to_dict(orient='records')
# dict1
vec=DictVectorizer(sparse=False)
x=vec.fit_transform(dict1)
# print(x)
# print(y)

# 数据集划分
x_train,x_test,y_train,y_test=train_test_split(x,y,test_size=0.25,random_state=666)
# 标准化
scaler=StandardScaler()
x_train=scaler.fit_transform(x_train)
# 训练模型
model=RandomForestClassifier(n_estimators=100,max_depth=8,criterion='gini')
model.fit(x_train,y_train)
# 模型评估
x_test=scaler.transform(x_test)
rank=model.score(x_test,y_test)
print("综合得分:\n",rank)

十一线性回归(重点)

标称型数据（Nominal Data）是统计学和数据分析中的一种数据类型，它用于分类或标记不同的类别或组别,数据点之间并没有数值意义上的距离或顺序。

特点：

无序性：标称数据的各个类别之间没有固有的顺序关系。例如，“性别”可以分为“男”和“女”，但“男”和“女”之间不存在大小、高低等顺序关系。
非数值性：标称数据不能进行数学运算，因为它们没有数值含义。
多样性：标称数据可以有很多不同的类别，具体取决于研究的主题或数据收集的目的。
比如西瓜的颜色,纹理,敲击声响这些数据就属于标称型数据,适用于西瓜分类

连续型数据（Continuous Data）表示在某个范围内可以取任意数值的测量，这些数据点之间有明确的数值关系和距离。

特点：

可测量性：连续型数据通常来源于物理测量，如长度、重量、温度、时间等，这些量是可以精确测量的。
无限可分性：连续型数据的取值范围理论上是无限可分的，可以无限精确地细分。
数值运算：连续型数据可以进行数学运算，如加、减、乘、除以及求平均值、中位数、标准差等统计量。

在数据分析中，连续型数据的处理和分析方式非常丰富，常见的有：

描述性统计：计算均值、中位数、众数、标准差、四分位数等，以了解数据的中心趋势和分布情况。
概率分布：通过拟合概率分布模型，如正态分布、指数分布、伽玛分布等，来理解数据的随机特性。
图形表示：使用直方图、密度图、箱线图、散点图等来可视化数据的分布和潜在的模式。
回归分析：建立连续型变量之间的数学关系，预测一个或多个自变量如何影响因变量。
比如西瓜的甜度,大小,价格这些数据就属于连续型数据,可以用于做回归

1回归

回归的目的是预测数值型的目标值y，求回归系数的过程就是回归，根据回归系数可以得到预测值。

2线性回归

线性回归是机器学习中一种有监督学习的算法，回归问题主要关注的是因变量(需要预测的值)和一个或多个数值型的自变量(预测变量)之间的关系。

因变量（需要预测的值）：目标变量，target/y

自变量（影响目标变量的因素）：离散值/连续值

模型：因变量和自变量之间的关系

人工智能中的线性回归：数据集中很难找到一个完美的方程式完全满足所有的目标值，通过给出的数据集去拟合一条直线尽可能满足所要求的模型关系，从而得到对应的尽可能准确的目标值。

3损失函数

均方差：就是每个点到线的竖直方向的距离平方求和，再平均，这个数值最小时的直线就是最优直线

1.给出数据集，
$x_i$ 和对应的真实值 $y_i$

在坐标轴上画出对应的点（离散或者连续），如果是离散的点，需要找一条直线使得这些点尽可能多地在这条直线上，或者能够尽可能均匀地分布在这条直线的两边，达到损失值最小的目标，使其尽可能地接近能够进行准确预测的目标函数（最优直线）

2.假设该目标函数为：
$y=wx+b$

已知
$x_1,x_2,x_3...x_i$

将x带入目标函数得到预测值：
$y_i^,=wx_i+b$

那么得到真实值和预算值的误差：
${y_i-y_i^,}$

总误差（总损失值）为：
$loss={(y_1-y_1^,)^2}+{(y_2-y_2^,)^2}+....{(y_i-y_i^,)^2}$

平方是因为真实值和预算值的误差有可能为负数，正数和负数直接相加会抵消。

然后求平均误差(总误差会受到样本点的个数的影响，样本点越多，该值就越大，对其平均化求得平均值，这样就能解决样本点个数不同带来的影响)，由此得到损失函数：
$\bar e = \frac{1}{n} \textstyle\sum_{i=1}^{n}(y_{i}-w x_{i} - b)^{2}$

要求使得损失值最小时候的w值，则：

先假设b=0方便计算：

求得w=0.795时损失函数取得最小值

那么在b=0时，最优解函数为：
$y=0.795x+0$

4多参数回归

实际情况下，影响目标y的因素不止一个，此时x就从1个变成了n个，对应的w也变成了n个，那么所求的目标函数就从一元线性回归变成了多元线性回归函数
$y^,=w_1x_1+w_2x_2+....w_nx_n+b$

假设：
$w_0=b$

那么损失函数为：
$loss=[(y_1-y_1^,)^2+(y_2-y_2^,)^2+....(y_n-y_n^,)^2]/n$

需要求当
$W{(w_1,w_2..w_0)}$ =？时
loss的最小值

5最小二乘法MSE

1.矩阵相关知识
$(A^T)^T = A$ ：一个矩阵的转置的转置等于原矩阵。
$(A + B)^T = A^T + B^T$ ：两个矩阵和的转置等于它们各自转置的和。
$(kA)^T = kA^T$ ：一个矩阵乘以一个标量的转置等于该矩阵的转置乘以该标量。
$(AB)^T = B^T A^T$ ：两个矩阵乘积的转置等于它们各自转置的乘积，但顺序相反。

2.最小二乘法

假设有8个不同属性的x得到一个真实的y值，要求其中对应的w的值，那么对应的目标函数为：
$h(x)=w_1x_1+w_2x_2+w_3x_3+w_4x_4+w_5x_5+w_6x_6+w_7x_7+w_8x_8+w_0x_0$

可以将数据对应的x和y转换为对应的矩阵X和y，所要求的w则转换为对应的矩阵W，我们要求的是w对应哪些数值时的误差/损失最小。

对应的损失函数为：

此时就得到最小二乘法公式

其中：
$\\ ||A||^2$ 是欧几里得范数的平方\,也就是每个元素的平方相加

推导1：

推导2：链式求导

原文地址：https://blog.csdn.net/keep_keeprogress/article/details/143806240

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：机器学习 ---线性回归
下一篇：深入理解Flutter生命周期函数之StatefulWidget(一)

免费申请 Let‘s Encrypt SSL 证书
在网络安全日益重要的今天，为网站启用 SSL 证书是保障数据安全和用户信任的关键。Let's Encrypt 提供的免费 SSL 证书是一个很好的选择。下面我们详细介绍如何为网站域名申请该证书。
阅读更多2024-11-16
Spring Boot 中使用 @Transactional 注解配置事务管理
Spring Boot 中使用 @Transactional 注解配置事务管理
阅读更多2024-11-16
自定义实体类中DateTime属性的序列化格式
本文介绍了Newtonsoft.Json与System.Text.Json下如何在实体上自定义DateTime类型的序列化格式。
阅读更多2024-11-16
阅读2020-2023年《国外军用无人机装备技术发展综述》笔记_作战无人机和察打无人机图鉴
本篇对2020-2023年《国外军用无人机装备技术发展综述》这几篇文章中所提到的作战无人机和察打无人机逐个更详细的介绍。
阅读更多2024-11-16
Flutter：InheritedWidget数据共享
未使用数据共享时，要传递数据，只能组件间一级一级向下传递。InheritedWidget数据共享，优化下上边代码。下边代码中，创建了一个按钮，当点击时。
阅读更多2024-11-16
Ubuntu22.04.2 k8s部署
Helm 是 Kubernetes 的一个包管理工具，类似于 Linux 下的 apt 或 yum。它可以帮助用户通过定义配置文件的方式来部署和管理 Kubernetes 应用，极大地简化了应用在 K
阅读更多2024-11-16
推荐一款全能网络视频下载工具：闪豆视频下载器
是一款网络视频，主要支持下载同时，软件还具备4K、1080p60、720p60、1080+、720p、480p、360p画质的视频下载，无论你想要哪种画质，在这里都能满足你。
阅读更多2024-11-16
3D电子商务是什么？如何利用3D技术提升销售转化？
3D电子商务，简而言之，就是利用3D产品模型来优化和提升在线购物体验的一种新型电商模式。它打破了传统二维图片的局限，使消费者能够以前所未有的方式“触摸”和感受商品。无论是家具、服装、电子产品还是艺术品
阅读更多2024-11-16
麒麟系统下docker搭建jenkins
执行这个命令后，我们将启动一个Jenkins容器，并且可以通过宿主机的7083端口访问Jenkins的Web界面，通过7084端口访问Jenkins的调试端口。同时，Jenkins的数据会被存储在宿主
阅读更多2024-11-16
前后端交互之动态列
在做项目时，有时候后会遇到后端使用了**聚合函数**，导致生成的**对象的属性数量或数量不固定**，因此无法建立一个与之对应的对象来向前端传递数据，这时可以采用NameDataListVO向前端传递
阅读更多2024-11-16