24.11.13 机器学习特征降维(主成份分析) KNN算法交叉验证(K-Fold) 超参数搜索

🕗 发布于 2024-11-16 07:00 机器学习 算法 人工智能

导包小总结(不全面):

from sklearn.datasets import load_iris

from sklearn.model_selection import train_test_split

from sklearn.feature_extraction import DictVectorizer(字典数据集的划分)

from sklearn.feature_extraction.text import CountVectorizer(特征提取)

特征降维

主成份分析(PCA)

PCA的核心目标是从原始特征空间中找到一个新的坐标系统，使得数据在新坐标轴上的投影能够最大程度地保留数据的方差，同时减少数据的维度。

使用$(x0, y0)$表示一个点，表明该点有两个特征，而映射到L上有一个特征就可以表示这个点了。这就达到了降维的功能。

投影到L上的值就是降维后保留的信息，投影到与L垂直的轴上的值就是丢失的信息。保留信息/原始信息=信息保留的比例

下图中红线上点与点的距离是最大的，所以在红色线上点的方差最大，粉红线上的刚好相反.

所以红色线上点来表示之前点的信息损失是最小的。

步骤

得到矩阵

用矩阵P对原始数据进行线性变换，得到新的数据矩阵Z,每一列就是一个主成分, 如下图就是把10维降成了2维,得到了两个主成分

根据主成分的方差等，确定最终保留的主成分个数，方差大的要留下。一个特征的多个样本的值如果都相同，则方差为0，则说明该特征值不能区别样本，所以该特征没有用。

比如下图的二维数据要降为一维数据，图形法是把所在数据在二维坐标中以点的形式标出，然后给出一条直线，让所有点垂直映射到直线上，该直线有很多，只有点到线的距离之和最小的线才能让之前信息损失最小。

这样之前所有的二维表示的点就全部变成一条直线上的点，从二维降成了一维。

api

from sklearn.decomposition import PCA

PCA(n_components=None)

主成分分析

n_components:

实参为小数时：表示降维后保留百分之多少的信息

实参为整数时：表示减少到多少特征

代码演示：

注意点

在数据预处理中，特别是使用如StandardScaler这样的数据转换器时，fit、fit_transform和transform这三个方法的使用是至关重要的，它们各自有不同的作用：

fit:
- 这个方法用来计算数据的统计信息，比如均值和标准差（在StandardScaler的情况下）。这些统计信息随后会被用于数据的标准化。
- 你应当仅在训练集上使用fit方法。
fit_transform:
- 这个方法相当于先调用fit再调用transform，但是它在内部执行得更高效。
- 它同样应当仅在训练集上使用，它会计算训练集的统计信息并立即应用到该训练集上。
transform:
- 这个方法使用已经通过fit方法计算出的统计信息来转换数据。
- 它可以应用于任何数据集，包括训练集、验证集或测试集，但是应用时使用的统计信息必须来自于训练集。

当你在预处理数据时，首先需要在训练集X_train上使用fit_transform，这样做可以一次性完成统计信息的计算和数据的标准化。这是因为我们需要确保模型是基于训练数据的统计信息进行学习的，而不是整个数据集的统计信息。

一旦scaler对象在X_train上被fit，它就已经知道了如何将数据标准化。这时，对于测试集X_test，我们只需要使用transform方法，因为我们不希望在测试集上重新计算任何统计信息，也不希望测试集的信息影响到训练过程。如果我们对X_test也使用fit_transform，测试集的信息就可能会影响到训练过程。

总结来说:我们常常是先fit_transform(x_train)然后再transform(x_text)

# PCA 主成份分析
from sklearn.decomposition import PCA
my_data = [[1,5,6,1],
           [1,9,8,9],
           [1,1,4,6],
           [1,4,2,3]]
# 创建
# n_components 参数，如果填入 0.95 这种小数，则是保留95%的信息
#                   如果填入的是 2 这种数字,则多个特征降维到两个特征
per = PCA(n_components=0.01)
result = per.fit_transform(my_data)
print(result)

KNN算法-分类

KNN缺点

对于大规模数据集，计算量大，因为需要计算测试样本与所有训练样本的距离。

对于高维数据，距离度量可能变得不那么有意义，这就是所谓的“维度灾难”

需要选择合适的k值和距离度量，这可能需要一些实验和调整

模型选择与调优

交叉验证

保留交叉验证(train_test_split)

K-折交叉验证(KFold)

分成K-折交叉验证(StratifiedKFold)

from sklearn.datasets import load_iris
from sklearn.model_selection import StratifiedKFold
from sklearn.neighbors import KNeighborsClassifier
x, y = load_iris(return_X_y=True)  # 直接返回x,y的元组
folder = StratifiedKFold(n_splits=5, shuffle=True, random_state=666)
iter = folder.split(x, y)
knn = KNeighborsClassifier(n_neighbors=7)
score_arr=[]
for train_index, test_index in iter:
    print(train_index, test_index)
    model = knn.fit(x[train_index], y[train_index])
    s = model.score(x[test_index], y[test_index])
    score_arr.append(s)
print("平均准确率:", sum(score_arr)/len(score_arr))

超参数搜索

超参数搜索也叫网格搜索

# 超参数的选择(网格搜索)
from sklearn.model_selection import GridSearchCV
from sklearn.neighbors import KNeighborsClassifier
from sklearn.datasets import load_iris

model = KNeighborsClassifier()
model = GridSearchCV(estimator=model,param_grid={"n_neighbors":[5,7,9]})
X_train,y_train=load_iris(return_X_y=True)
model.fit(X_train,y_train)
print(model.best_params_)
print(model.best_score_)
print(model.best_estimator_)
print(model.cv_results_)
print(model.best_index_)

原文地址：https://blog.csdn.net/SaNDJie/article/details/143749741

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：前端--全局变量window
下一篇：11.15 机器学习-集成学习方法-随机森林

@Autowired 和 @Resource思考（注入redisTemplate时发现一些奇怪的现象）
@Autowired 和 @Resource思考（注入redisTemplate时发现一些奇怪的现象）
阅读更多2024-11-16
25浙江省考-28天学行测-Day5 & Day6-判断推理（中）
1、另有他因2、因果倒置3、否定此因4、根本原因5、三圈质疑1、排除他因2、四圈支持1、无论据有结论2、有论据有结论3、质疑论证过程4、严谨逻辑关系5、比例类论证1、解释说明2、增加论据3、断点
阅读更多2024-11-16
Rust 入门指南（零）：安装及 Cargo 管理器
系列第 0 篇，简单介绍了 Rust 的基本安装和配置流程，以及如何通过 Cargo 创建和管理项目。
阅读更多2024-11-16
Centos使用人大金仓ksql
Centos使用人大金仓ksql
阅读更多2024-11-16
多模态大模型简介
多模态大模型是机器学习领域的一个新兴趋势，它结合了文本、图像、音频等多种数据模态，以实现更全面和深入的信息理解和处理。这种模型能够处理跨模态任务，如图像标注、视觉问答、文本到图像的生成等，是人工智能领
阅读更多2024-11-16
javaScript交互补充2（动画函数封装）
如果多个元素都使用这个动画函数，每次都要var 声明定时器，我们可以给不同元素使用不同的定时器（自己用自己的定时器）核心原理：利用js是一门动态语言，可以很方便的给当前对象添加属性。缓动动画就是让元素
阅读更多2024-11-16
【鸿蒙开发】第十五章 H5与端侧交互、Cookies以及Web调试
Web组件支持在应用拦截到页面请求后自定义响应请求能力。开发者通过接口来实现自定义资源请求响应。自定义请求能力可以用于开发者自定义Web页面响应、自定义文件资源响应等场景。Web网页上发起资源加载请求
阅读更多2024-11-16
javaScript交互补充（元素的三大系列）
使用client系列的相关属性来获取元素可视区的相关信息，可以动态的得到该元素的边框大小，元素大小等。返回自身包括padding，内容区宽度，不含边框，返回数值不带单位。返回自身包括padding，内
阅读更多2024-11-16
django 过滤器的执行
默认情况下，会执行，特别是如果在中配置了它，或者没有禁用它。禁用过滤器：可以通过在APIView中设置来禁用过滤器，避免执行。手动调用过滤器：如果需要，你可以在视图中手动调用来过滤查询集。自定义过滤器
阅读更多2024-11-16
在Ubuntu 24.04 LTS上安装飞桨PaddleX
首先，请运行“ubuntu-drivers devices”命令列出当前可用的硬件设备，确保Ubuntu 24.04.1 LTS已发现安装在桌面计算机中的英伟达显卡，如下图所示。是基于飞桨框架构建的一
阅读更多2024-11-16

24.11.13 机器学习 特征降维(主成份分析) KNN算法 交叉验证(K-Fold) 超参数搜索