机器学习之pandas

🕗 发布于 2024-12-27 13:59 机器学习 数据挖掘 python pandas 人工智能

在机器学习项目中，Pandas 是一个非常重要的 Python 库，它主要用于数据处理和分析，尤其在数据预处理和探索性数据分析（EDA）中具有广泛应用。Pandas 提供了高效的数据结构和数据操作工具，帮助我们快速处理和分析数据。以下是如何利用 Pandas 进行机器学习任务中的数据操作和预处理的概述：

1. 导入数据

首先，需要导入数据集。Pandas 提供了读取各种文件格式的功能，如 CSV、Excel、SQL 数据库等。最常用的方式是通过 read_csv() 函数读取 CSV 文件。

import pandas as pd

# 读取CSV文件
df = pd.read_csv('data.csv')

2. 数据查看和探索

Pandas 提供了几种方法来查看数据集的结构和内容：

df.head()：查看数据集的前几行
df.tail()：查看数据集的后几行
df.info()：查看数据集的基本信息，如列名、非空值数量、数据类型等
df.describe()：查看数据的统计描述，如均值、标准差、最小值、最大值等

# 查看前五行
print(df.head())

# 查看数据基本信息
print(df.info())

# 统计信息
print(df.describe())

3. 数据清洗

数据预处理是机器学习中的关键步骤，Pandas 提供了大量的功能来清洗数据，包括缺失值处理、重复值处理和异常值处理等。

3.1 缺失值处理

检查缺失值：可以通过 isnull() 或 isna() 来检查数据框中的缺失值。

# 检查缺失值
print(df.isnull().sum())

填充缺失值：可以使用 fillna() 填充缺失值，如使用均值、众数等填充。

# 使用均值填充缺失值
df['column_name'] = df['column_name'].fillna(df['column_name'].mean())

删除缺失值：通过 dropna() 删除包含缺失值的行或列。

# 删除包含缺失值的行
df = df.dropna()

3.2 重复值处理

可以通过 drop_duplicates() 删除重复的行。

# 删除重复的行
df = df.drop_duplicates()

3.3 异常值处理

Pandas 支持通过条件筛选来处理异常值，例如去除大于某个阈值的行：

# 删除某列值大于100的行
df = df[df['column_name'] <= 100]

4. 特征工程

特征工程是机器学习模型中的重要步骤，Pandas 提供了许多功能来创建新的特征、删除不需要的特征、处理类别特征等。

4.1 特征选择

可以选择对模型有用的特征，丢弃不相关的特征。

# 选择需要的特征
df = df[['feature1', 'feature2', 'target']]

4.2 特征转换

常见的特征转换包括标准化、归一化、类别特征编码等。

标准化：通过减去均值，除以标准差使数据符合标准正态分布。

from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
df[['feature1', 'feature2']] = scaler.fit_transform(df[['feature1', 'feature2']])

归一化：将特征缩放到指定的范围（例如 0 到 1）。

from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()
df[['feature1', 'feature2']] = scaler.fit_transform(df[['feature1', 'feature2']])

类别编码：将类别变量转换为数值变量。Pandas 提供了 get_dummies() 函数进行独热编码，LabelEncoder 用于标签编码。

# 独热编码
df = pd.get_dummies(df, columns=['categorical_column'])

# 标签编码
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
df['category_encoded'] = le.fit_transform(df['category_column'])

4.3 特征构造

根据现有数据构造新的特征。例如，可以将某些列的值相加或做其他数学操作来生成新特征。

# 创建新特征
df['new_feature'] = df['feature1'] + df['feature2']

5. 数据拆分

在机器学习中，通常将数据集分为训练集和测试集，Pandas 可以通过 train_test_split 来实现。

from sklearn.model_selection import train_test_split

# 特征和目标变量
X = df.drop(columns='target')
y = df['target']

# 拆分数据
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

6. 数据可视化

Pandas 集成了 Matplotlib 和 Seaborn 用于数据可视化。通过 plot() 方法，Pandas 允许你快速绘制图表。

import matplotlib.pyplot as plt

# 绘制柱状图
df['column_name'].value_counts().plot(kind='bar')
plt.show()

# 绘制散点图
df.plot.scatter(x='feature1', y='feature2')
plt.show()

7. 总结

Pandas 是机器学习中不可或缺的工具，提供了强大的数据处理和分析能力。在处理实际的机器学习任务时，Pandas 可以帮助你高效地进行数据清洗、特征工程、数据拆分等步骤。通过与其他机器学习工具（如 Scikit-Learn）结合使用，Pandas 为机器学习提供了完整的数据预处理框架。

原文地址：https://blog.csdn.net/dundunmm/article/details/144754688

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：VLMs之Gemma 2：PaliGemma 2的简介、安装和使用方法、案例应用之详细攻略
下一篇：没有了

uni-app开发收货地址管理
收货地址在个人中心的我的地址里面，点击我的地址可以查看我的收货地址列表，可以新增收货地址，点击特定收货地址可以编辑和删除该地址信息。// 加载loding。
阅读更多2024-12-27
hive的存储格式
hive5种存储格式的区别
阅读更多2024-12-27
基于 MATLAB 的图像增强技术分享
MATLAB 的图像处理工具箱提供了大量用于图像增强和处理的函数，如imread用于读取图像，imwrite用于保存图像，rgb2gray用于将彩色图像转换为灰度图像，imhist用于计算图像的直方图
阅读更多2024-12-27
taiwindcss
注意：一定通过px tailwindcss init方式创建。6.问题，如果这几个步骤发现没有实现，删除包以后重新试一下。5.因为tailwindcss是依赖于postcss。创建postcss.co
阅读更多2024-12-27
“Gold-YOLO：基于聚合与分发机制的高效目标检测新范式”
Gold-YOLO是一种新型高效的目标检测模型，它通过引入聚合和分发机制显著提升了多尺度特征融合的能力。Gold-YOLO通过其创新的GD机制，在目标检测领域实现了最佳性能，尤其是在处理多尺度物体时。
阅读更多2024-12-27
典型常见的基于知识蒸馏的目标检测方法总结一
使用feature propagation layer [29]将voxel特征转换为point feature。
阅读更多2024-12-27
CSS系列（37）-- Overscroll Behavior详解
CSS之旅第三十七站
阅读更多2024-12-27
最短路径C++，Dijkstra
第一行为有向图中点的数量n（各点从0到n-1编号）第二行为边的数量m第三行为要求其间最短路径的两个点第四行起为m条边的信息，包括起点、终点和路径长度（保证长度是整数，且绝对值不大于100），以空格隔开
阅读更多2024-12-27
题海拾贝：蓝桥杯 2020 省AB 乘法表
输出P进制下的乘法表。P 进制中大于等于 10 的数字用大写字母 A、8、C、.·表示。九九乘法表是学习乘法时必须要掌握的。在不同进制数下，需要不同的乘法表。给定 P，请输出P 进制下的乘法表。
阅读更多2024-12-27
力扣-数据结构-3【算法学习day.74】
##我做这类文章一个重要的目的还是给正在学习的大家提供方向（例如想要掌握基础用法，该刷哪些题？建议灵神的题单和代码随想录）和记录自己的学习过程，我的解析也不会做的非常详细，只会提供思路和一些关键点，力
阅读更多2024-12-27