Python Scikit-learn简介（二）

🕗 发布于 2024-11-23 18:55 python scikit-learn 开发语言 机器学习

数据处理

数据划分

机器学习的数据，可以划分为训练集、验证集和测试集，也可以划分为训练集和测试集。
在这里插入图片描述

from sklearn.model_selection import train_test_split

# 示例数据
X = [[1, 2], [3, 4], [5, 6], [7, 8]]
y = [0, 1, 0, 1]

# 划分数据集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)

print("Training data:", X_train, y_train)
print("Testing data:", X_test, y_test)

数据清洗

数据清洗是数据预处理的第一步，涉及处理缺失值、重复数据、异常值等。

import pandas as pd

# 创建一个包含缺失值和重复数据的DataFrame
data = pd.DataFrame({
    'A': [1, 2, np.nan, 4],
    'B': [5, 5, 7, 8],
    'C': [9, 10, 11, 12]
})

# 删除重复行
data = data.drop_duplicates()

# 填充缺失值
data = data.fillna(data.mean())

print(data)

特征提取与转换

特征提取是将原始数据转换为更适合机器学习模型的特征表示。Scikit-learn提供了多种特征提取工具，如DictVectorizer用于处理字典数据，CountVectorizer用于文本数据的词频统计。

from sklearn.feature_extraction.text import CountVectorizer

# 示例文本数据
text_data = ["hello world", "hello everyone", "world of programming"]

# 初始化CountVectorizer
vectorizer = CountVectorizer()

# 转换文本数据为词频矩阵
X = vectorizer.fit_transform(text_data)

print(X.toarray())

标准化与归一化

标准化和归一化是调整特征尺度的重要步骤，有助于提高某些算法的性能。

from sklearn.preprocessing import StandardScaler, MinMaxScaler

# 示例数据
data = [[1, 2], [2, 3], [3, 4]]

# 标准化
scaler = StandardScaler()
standardized_data = scaler.fit_transform(data)

# 归一化
min_max_scaler = MinMaxScaler()
normalized_data = min_max_scaler.fit_transform(data)

print("Standardized data:", standardized_data)
print("Normalized data:", normalized_data)

缺失值处理

处理缺失值是数据预处理中的常见任务。Scikit-learn提供了SimpleImputer来填充缺失值。

from sklearn.impute import SimpleImputer

# 示例数据
data = [[1, 2], [np.nan, 3], [7, 6]]

# 初始化SimpleImputer，使用均值填充
imputer = SimpleImputer(strategy='mean')

# 填充缺失值
imputed_data = imputer.fit_transform(data)

print(imputed_data)

特征选择

在这里插入图片描述

监督学习算法

在这里插入图片描述

线性模型
- 线性模型是监督学习中最基础的模型之一，它假设特征之间的关系可以用一条直线（对于二元分类）或超平面（对于多类分类）来表示。线性模型主要包括线性回归（用于连续目标变量）和逻辑回归（用于分类目标变量）
支持向量机
- 支持向量机（Support Vector Machine, SVM）是一种强大的监督学习算法，适用于分类和回归分析。在分类问题中，SVM旨在找到一个超平面，该超平面能够最大化不同类别之间的边际。
- Scikit-learn提供了多种SVM实现，包括线性SVM和核SVM。线性SVM适用于线性可分数据，而核SVM通过使用核技巧，可以处理非线性可分数据。
决策树
- 决策树通过一系列的判断规则对数据进行分类，而随机森林是决策树的集成学习方法，通过构建多个决策树并进行投票来提高预测的准确性。
随机森林
- 随机森林是决策树的集成学习方法，通过构建多个决策树并进行投票来提高预测的准确性。
集成学习方法
- 监督学习中的梯度提升机（Gradient Boosting）是一种强大的集成学习算法，它通过迭代地训练决策树来最小化损失函数，从而提高模型的预测性能。Scikit-learn提供了一个名为GradientBoostingClassifier的类，用于实现梯度提升机。

无监督学习算法

在这里插入图片描述

聚类分析
- 聚类分析是将数据集中的样本分成多个组或簇的过程，使得同一簇内的样本相似度高，不同簇间的样本相似度低。K-Means是最常用的聚类算法之一。
主成分分析（PCA）
- 主成分分析（PCA）是一种用于降维的技术，它通过线性变换将数据投影到新的坐标系中，使得投影后的数据具有最大的方差。
奇异值分解（SVD）
- 奇异值分解（SVD）是一种矩阵分解技术，常用于降维和数据压缩。
关联规则学习
- 关联规则学习用于发现数据集中变量之间的有趣关系，如购物篮分析中的“啤酒与尿布”现象。Apriori算法是常用的关联规则学习算法之一。

原文地址：https://blog.csdn.net/yangzheng_520/article/details/143943961

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：Vue3 源码解析（三）：静态提升
下一篇：智慧社区管理系统平台提升物业运营效率与用户体验

Windows电脑本地部署llamafile并接入Qwen大语言模型远程AI对话实战
Windows电脑本地部署llamafile并接入Qwen大语言模型远程AI对话实战
阅读更多2024-11-23
解决vm虚拟机中ctrl键粘滞问题（一直处于按下状态）
虚拟机中点击鼠标左键没有问题，单独按下键盘也没有问题，但是如果按下键盘的同时在按下鼠标左键就会卡住。而且100%稳定复现。发现问题原因：vm版本的问题，我的版本是17.5.0，升级成17.5.2 bu
阅读更多2024-11-23
第十章 JavaScript的应用
10.1.1 JavaScript简介1 简单性JavaScript 设计之初就考虑到了非专业程序员的使用，因此它的语法相对简单，容易上手。2 动态性JavaScript 是一种解释型语言，代码可以在
阅读更多2024-11-23
非root用户安装CUDA
4.下载完成后执行.run文件，需要添加两个参数，一个是--override，用于跳过某些检查或限制；另一个是--toolkitpath，它表示安装路径，必须是自己目录下面的路径，如果是根目录就会安装
阅读更多2024-11-23
Python操作neo4j库py2neo使用之py2neo 删除及事务相关操作（三）
【代码】## Python操作neo4j库py2neo使用之py2neo 删除及事务相关操作（三）
阅读更多2024-11-23
【通俗理解】Jensen不等式与变分分布q(z)在积分计算中的应用
Jensen不等式 #变分分布 #积分计算 #期望 #凸函数 #优化问题 #下界估计 #机器学习。
阅读更多2024-11-23
「Mac玩转仓颉内测版27」基础篇7 - 字符串类型详解
本篇将介绍 Cangjie 中的字符串类型，包括字符串的定义、字面量形式、插值表达、常用操作及应用场景，帮助开发者熟练掌握字符串的使用。
阅读更多2024-11-23
数据科学与SQL：组距分组分析 | 区间分布问题
绝对值分布分析也可以理解为组距分组分析。对于某个指标而言，一个记录对应的指标值的绝对值，肯定落在所有指标值的绝对值的最小值和最大值构成的区间内，根据一定的算法，在把这个区间划分为等距离的几个小区间，，
阅读更多2024-11-23
c++编译报C1004错误的原因及解决办法
可能是你的代码文件最后没有正确的结束符，或者是缺少了一些必要的头文件或语句。默认磁盘驱动器没有足够的空间用于临时文件，需要大约两倍于源文件的空间。编译器到达了源文件尾但未解析构造。计算结果为假的 #i
阅读更多2024-11-23
mysql 去重补全取出重复变量函数和存储过程
mysql 去重补全取出重复变量函数和存储过程
阅读更多2024-11-23

Python Scikit-learn简介（二）

数据处理

数据划分

数据清洗

特征提取与转换

标准化与归一化

缺失值处理

特征选择

监督学习算法

无监督学习算法

相关文章