机器学习基础03_特征降维&KNN算法-分类&模型选择和调优

🕗 发布于 2024-11-14 09:10 机器学习 算法笔记

一、特征降维

2、主成分分析（PCA）

二、KNN算法-分类

三、模型选择与调优

1、交叉验证 -->模型选择

2、超参数搜索/网格搜索 Grid Search -->调优

一、特征降维

2、主成分分析（PCA）

核心目标

从原始特征空间中找到一个新的坐标系统，使得数据在新坐标轴上的投影能够最大程度地保留数据的方差，同时减少数据的维度。

原理：根据主成分的方差确定保留的主成分个数，将原始数据通过矩阵进行线性变换得到新的数据矩阵，每一列是一个主成分(特征)，每一行是一组数据。

则降维操作得到的应是特征变少，数据不变，即列减少行不变的数据矩阵。

方差：保留方差大的主成分数据，如果一个特征的多个样本的值都相同，则方差为0，则说明该特征值不能区别样本，所以该特征没有用。

api:

from sklearn.decomposition import PCA

PCA(n_components=None)

主成分分析

n_components:

实参为小数时：表示降维后保留百分之多少的信息

实参为整数时：表示减少到多少特征

from sklearn.decomposition import PCA

data = [
    [1,2,3,4],
    [3,4,5,6],
    [7,8,9,10]
    ]
# n_components 为整数
transfer = PCA(n_components=3) # 降到3维
data_new = transfer.fit_transform(data)
print(data_new)

# n_components为小数
transfer = PCA(n_components=0.95)# 降维后需保留原始数据0.95%的信息
data_new = transfer.fit_transform(data)# 自动降维
print(data_new)

二、KNN算法-分类

样本距离判断

两个样本的距离公式一般使用欧式距离或曼哈顿距离

欧式距离： $D(x,y)=\sqrt{\sum_{i=1}^{n}(x_{i}-y_{i})^{2}}$

曼哈顿距离： $D(x,y)={\sum_{i=1}^{k}\left |(x_{i}-y_{i})\right |}$

原理

如果一个样本在特征空间中的k个最相似(最邻近)样本中的大多数属于某个类别，则该类本也属于这个类别。

缺点

对于大规模数据集，计算量大，因为需要计算测试样本与所有训练样本的距离。

对于高维数据，距离度量可能变得不那么有意义，引发所谓的“维度灾难”。

api:

sklearn.neighbors.KNeighborsClassifier(n_neighbors=5, algorithm='auto')

参数:

(1)n_neighbors:

int, default=5, 默认情况下用于kneighbors查询的近邻数，就是K

(2)algorithm:

{‘auto’, ‘ball_tree’, ‘kd_tree’, ‘brute’}, default=’auto’。找到近邻的方式，注意不是计算距离的方式，与机器学习算法没有什么关系，开发中请使用默认值'auto'

方法:

(1) fit(x， y)

使用X作为训练数据和y作为目标数据

(2) predict(X) 预测提供的数据，得到预测数据

from sklearn.neighbors import KNeighborsClassifier
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

# 加载数据
iris = load_iris()
x,y = iris.data,iris.target

# 分割数据
x_train,x_test,y_train,y_test = train_test_split(x,y,train_size=0.6,random_state=666)

# 处理数据 标准化
scaler = StandardSacler()
x_train = scaler.fit_transform(x_train)
x_test = scaler.transform(x_test)

# 模型训练 KNN
knn = KNeighborsClassifier(n_neighbors=5)# 5个邻近单位
knn.fit(x_train,y_train)

# 模型预测
y_predict = knn.predict(x_test)
print(f'y_target_names:{iris.target_names}')
print(f'y_predict:{y_predict}')
print(f'y_test:{y_test}')

# 模型评估
# 01 比对真实值和预测值
re = y_predict==y_test
print(f'比对情况:{re}')
# 02 计算准确率
score = knn.score(x_test,y_test)
print(f'score:{score}')

# 模型推理
x_new = [[4.3,5.1,6.1,1.4],
         [1.7,2.1,3.3,1.8]]
x_new_standard = scaler.transform(x_new)
y_detect = knn.predict(x_new_standard)
print(f'y_detect:{y_detect}')
print(f'预测名称:{iris.target_names[y_detect]}')

模型保存和加载

为了下次更方便地使用已经训练的好的模型测试数据，可使用 joblib库的函数保存模型和调用模型。

import joblib

# 保存模型
joblib.dump(estimator,'路径名/命名.pkl') # estimator:训练的模型参数，如上例中为：knn
# 加载模型
estimator = joblib.load('路径名/命名.pkl')
# 使用模型预测
y_test = estimator.predict([[0.4,0.2,0.4,0.7]])
print(y_test)

三、模型选择与调优

1、交叉验证 -->模型选择

(1)保留交叉验证 HoldOut

在这种交叉验证技术中，整个数据集被随机地划分为训练集和验证集。根据经验法则，整个数据集的近70%被用作训练集，其余30%被用作验证集。

优点：简单、容易执行

缺点：不适用于不平衡的数据集。会有数据被剥夺训练模型的机会。

(2)K-折交叉验证 K-fold

K-Fold交叉验证技术中，整个数据集被划分为K个大小相同的部分。每个分区被称为一个”Fold”。所以有K个部分被称之为K-Fold。一个Fold被用作验证集，其余的K-1个Fold被用作训练集。

该技术重复K次，直到每个Fold都被用作验证集，其余的作为训练集。

模型的最终准确度是通过取k个模型验证数据的平均准确度来计算的。

api:

from sklearn.model_selection import KFold

使用时只是KFold这个类名不一样其他代码完全一样

(3)分层k-折交叉验证 Stratified k-fold

K-折交叉验证的变种，分层的意思是在每一折中都保持着原始数据中各个类别的比例关系，比如：原始数据有3类，比例为1:2:1，采用3折分层交叉验证，那么划分的3折中，每一折中的数据类别保持着1:2:1的比例，这样的验证结果更加可信。

api:

from sklearn.model_selection import StratifiedKFold

说明:普通K折交叉验证和分层K折交叉验证的使用是一样的只是引入的类不同

strat_k_fold=sklearn.model_selection.StratifiedKFold(n_splits=5, shuffle=True, random_state=42)

n_splits划分为几个折叠

shuffle是否在拆分之前被打乱(随机化),False则按照顺序拆分

random_state随机因子

indexs=strat_k_fold.split(X,y)

返回一个可迭代对象,一共有5个折叠,每个折叠对应的是训练集和测试集的下标

然后可以用for循环取出每一个折叠对应的X和y下标来访问到对应的测试数据集和训练数据集以及测试目标集和训练目标集:

for train_index, test_index in indexs:

X[train_index] y[train_index] X[test_index] y[test_index]

from sklearn.datasets import load_iris
from sklearn.model_selection import StratifiedKFold
from sklearn.neighbors import KNeighborsClassifier

x,y = load_iris(return _X_y=True)
# 分层k-fold交叉验证器 分为5折 True随机打乱 随机数种子
folder = StratifiedKFold(n_split=5,shuffle=True,random_state=666)
# 返回每个折叠的训练集和测试集的下标
indexs = folder.split(x,y)
# 分类模型
knn = KNeighborsClassifier(n_neighbors=6)# 邻近单位设置为6

# 存储得分
score_arr = []
for train_index,test_index in indexs:
  # print(train_index, test_index)
  # 训练模型
  knn.fit(x[train_index],y[train_index])
  # 计算得分
  score = knn.score(x[test_index],y[test_index])
  score_arr.append(score)
print(score_arr)

2、超参数搜索/网格搜索 Grid Search -->调优

比如在KNN算法中，k是一个可以人为设置的参数，所以就是一个超参数。网格搜索能自动的帮助我们找到最好的超参数值。

api:

sklearn.model_selection.GridSearchCV(estimator, param_grid)

说明：

同时进行交叉验证(CV)、和网格搜索(GridSearch)，GridSearchCV实际上也是一个估计器(estimator)，同时它有几个重要属性：

best_params_ 最佳参数

best_score_ 在训练集中的准确率

best_estimator_ 最佳估计器

cv_results_ 交叉验证过程描述

best_index_最佳k在列表中的下标

参数：

estimator： scikit-learn估计器实例

param_grid:以参数名称（str）作为键，将参数设置列表尝试作为值的字典

示例： {"n_neighbors": [1, 3, 5, 7, 9, 11]}

cv: 确定交叉验证切分策略,值为:

(1)None 默认5折

(2)integer 设置多少折

如果估计器是分类器，使用"分层k-折交叉验证(StratifiedKFold)"。在所有其他情况下，使用KFold。

from sklearn.model_selection import GridSearchCV
from sklearn.neighbors import KNeighhborsClassifier
from sklearn.datasets import load_iris

x_train,y_train=load_iris(return_X_y=True)
estimator = KNeighborsClassifer()
estimator = GridSearchCV(estimator=estimator,param_grid="n_neighbors":[5,7,9,11]})

estimator.fit(X_train,y_train)
# 通常情况下，直接使用best_params_更为方便
print(estimator.best_params_)
print(estimator.best_score_)
print(estimator.best_estimator_)
print(estimator.best_index_)

原文地址：https://blog.csdn.net/l15202833159/article/details/143747177

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：人力资源招聘系统的革新之路：从传统到智能的转变
下一篇：GNN入门案例——KarateClub结点分类

Java爬虫（Jsoup）详解
Jsoup 是一款 Java 的 HTML 解析器，能够直接解析 URL 地址或 HTML 文本内容。它提供了一套非常省力的 API，可以通过 DOM、CSS 选择器以及类似于 jQuery 的操作方
阅读更多2024-11-18
【Linux】基础IO
文件=内容+属性。文件存储于磁盘上，即使是没有内容的空文件，因为属性信息仍占有一定的空间。Linux在文件的内容和属性是分开存储的。文件的操作本质是进程与被打开文件的关系。NAMESYNOPSISN
阅读更多2024-11-18
DevEco Studio 5.0.1 Beta3安装及配置
下载得到devecostudio-windows-5.0.5.200.zip文件。解压，得到deveco-studio-5.0.5.200.exe安装文件。
阅读更多2024-11-18
【MYSQL】读写分离【自我复习版】
所以先配置好主从机制，然后读写分离，实际上就是为了避免DML操作过慢导致查询速度下降，所以将主节点作为DML操作的库，然后把从节点当做DQL操作的库。所以就不能保证数据库的高可用。可以通过业务分类操作
阅读更多2024-11-18
Essential Cell Biology--Fifth Edition--Chapter one (7)
在内质网、高尔基体、溶酶体、质膜和细胞外部之间进行着持续的物质交换。这种交换是由运输囊泡[transport vesicles]介导[is mediated by]的，这些囊泡从一个细胞器的膜上夹下来
阅读更多2024-11-18
windows C#-创建记录类型(下)
记录是使用基于值的相等性的类型。 C# 10 添加了 record structs，以便你可以将记录定义为值类型。两个记录类型的变量在它们的类型和值都相同时，它们是相等的。两个类类型的变量如果引用
阅读更多2024-11-18
第8章利用CSS制作导航菜单
而且，用户浏览的习惯都是从上到下、从左往右的，将导航放置底部，这样的设计比较挑战用户的使用习惯。仍然是在<nav>的首尾标签之间，使用<div>标签创建菜单范围，结合无序列表&
阅读更多2024-11-18
【文化课学习笔记】【化学】有机相关知识梳理
有机相关知识梳理有机物的化学性质有机物主要化学反应高中有机主要反应(不涉及加聚、缩聚)：烃三角涵盖了烷、烯、炔和卤代烃三种烃类的关系，可逆三角中的三类物质可以互相转化、醇醛酸酯化三角主要反应以连续氧化
阅读更多2024-11-18
渗透测试---shell（3）脚本参数传递与数学运算
本文主要阐释了shell脚本的参数传递与数学运算，希望对你有所帮助咯。
阅读更多2024-11-18
题解：AtCoder Beginner Contest AT_abc380_d ABC380D Strange Mirroring
解释一下，这堆东西每两行为一组，每组中第一行为位置，第二行为编号（一或二）。第一组是刚才说的一号二号串的组合，第二组就是把第一组中的。当然不能直接计算出来了，不过可以递归。单次查询的时间复杂度不高，递
阅读更多2024-11-18

机器学习基础03_特征降维&KNN算法-分类&模型选择和调优

一、特征降维

2、主成分分析（PCA）

二、KNN算法-分类

三、模型选择与调优

1、交叉验证 -->模型选择

2、超参数搜索/网格搜索 Grid Search -->调优

相关文章