数据挖掘之认识数据

🕗 发布于 2024-12-26 22:57 数据挖掘信息可视化 人工智能 机器学习

在数据挖掘过程中，数据的认识是非常重要的一步，它为后续的数据分析、建模、特征选择等工作奠定基础。以鸢尾花数据集（Iris Dataset）数据集之鸢尾花数据集（Iris Dataset）-CSDN博客为例，下面将介绍如何从数据下载到可视化展示进行深入认识。

1. 数据下载

鸢尾花数据集是一个经典的机器学习数据集，通常用于分类任务。这个数据集可以从多个来源获得，包括通过sklearn库直接加载。

from sklearn.datasets import load_iris

# 加载鸢尾花数据集
iris = load_iris()

# 查看数据集的基本信息
print(iris.keys())

数据集包含以下几个重要部分：

data: 特征数据，包含150个样本，每个样本有4个特征（如花萼长度、花萼宽度、花瓣长度、花瓣宽度）。
target: 目标标签，包含样本所属的类别（共三类：Setosa, Versicolor, Virginica）。
feature_names: 特征的名称（例如 'sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)'）。
target_names: 类别的名称（例如 'setosa', 'versicolor', 'virginica'）。
DESCR: 数据集的描述信息。

2. 数据加载与基本信息

使用sklearn加载数据后，可以通过pandas将其转换为DataFrame，更便于查看和操作。

import pandas as pd

# 将数据转换为pandas DataFrame
iris_df = pd.DataFrame(data=iris.data, columns=iris.feature_names)

# 将目标标签添加到DataFrame中
iris_df['species'] = pd.Categorical.from_codes(iris.target, iris.target_names)

# 查看数据集基本信息
print(iris_df.info())

# 查看数据集的前几行
print(iris_df.head())

3. 数据统计描述

我们可以查看数据集的统计描述信息，了解每个特征的分布情况。

# 获取数据的统计描述
print(iris_df.describe())

4. 数据可视化

数据可视化可以帮助我们理解特征之间的关系，识别数据的模式，并且能够分辨不同类别样本在特征空间中的分布情况。

4.1 成对关系图（Pairplot）

成对关系图能够展示所有特征之间的两两关系，并且可以通过颜色区分不同类别。

import seaborn as sns

# 绘制成对关系图
sns.pairplot(iris_df, hue='species', palette='Set2')

4.2 箱线图（Boxplot）

箱线图能帮助我们观察每个特征的分布情况，并检测是否存在异常值。

# 绘制箱线图
plt.figure(figsize=(10, 6))
sns.boxplot(x='species', y='sepal length (cm)', data=iris_df)
plt.title('Boxplot of Sepal Length by Species')
plt.show()

4.3 热力图（Heatmap）

热力图可以帮助我们了解特征之间的相关性，并观察是否存在多重共线性。

import matplotlib.pyplot as plt
import seaborn as sns

# 计算特征之间的相关性
correlation = iris_df.iloc[:, :-1].corr()

# 绘制热力图
plt.figure(figsize=(8, 6))
sns.heatmap(correlation, annot=True, cmap='coolwarm', fmt='.2f')
plt.title('Correlation Heatmap of Iris Dataset')
plt.show()

5. 处理缺失值（如果有）

虽然鸢尾花数据集本身没有缺失值，但在实际数据中，缺失值的处理是很常见的。我们可以使用pandas来检查并处理缺失值：

# 检查缺失值
print(iris_df.isnull().sum())

# 假设有缺失值的列，使用均值填充
iris_df.fillna(iris_df.mean(), inplace=True)

7. 2D和3D可视化

2D可视化

import matplotlib.pyplot as plt
import numpy as np
from sklearn.datasets import load_iris

# Load the Iris dataset
iris = load_iris()
X = iris.data[:, :2]  # Use the first two features (Sepal Length and Sepal Width)
y = iris.target

# Create a 2D scatter plot
fig = plt.figure(figsize=(10, 7))
ax = fig.add_subplot(111)

# Map species to colors
colors = ['r', 'g', 'b']
species_names = iris.target_names

# Plot each species
for i in range(3):
    ax.scatter(X[y == i, 0], X[y == i, 1], label=species_names[i], color=colors[i], alpha=0.6)

ax.set_xlabel('Sepal Length (cm)')
ax.set_ylabel('Sepal Width (cm)')
ax.set_title('2D Scatter Plot of Iris Dataset')
ax.legend()
plt.show()

3D可视化

import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D
import numpy as np

# Extract features and target
X = iris.data[:, :3]  # Use the first three features for 3D visualization
y = iris.target

# Create a 3D scatter plot
fig = plt.figure(figsize=(10, 7))
ax = fig.add_subplot(111, projection='3d')

# Map species to colors
colors = ['r', 'g', 'b']
species_names = iris.target_names

for i in range(3):
    ax.scatter(X[y == i, 0], X[y == i, 1], X[y == i, 2], label=species_names[i], color=colors[i], alpha=0.6)

ax.set_xlabel('Sepal Length (cm)')
ax.set_ylabel('Sepal Width (cm)')
ax.set_zlabel('Petal Length (cm)')
ax.set_title('3D Scatter Plot of Iris Dataset')
ax.legend()
plt.show()

7. 小结

通过加载、查看和可视化鸢尾花数据集，我们可以更好地理解数据的结构、特征分布以及不同类别样本的区分度。这为后续的数据分析、特征选择以及机器学习建模提供了重要的基础。数据挖掘的第一步是对数据的深刻理解，只有了解了数据，才能采取合适的预处理步骤，最终构建有效的模型。

8. 总结

数据下载与加载: 使用sklearn.datasets.load_iris()加载数据，并通过pandas查看数据。
统计描述: 使用describe()查看数据的基本统计信息。
可视化: 使用seaborn绘制成对关系图、箱线图和热力图，了解数据的分布和特征之间的关系。
缺失值处理: 使用pandas处理缺失值（在实际情况中常见）。

通过这些方法，可以掌握如何处理数据、理解数据以及如何为后续分析做好准备。

原文地址：https://blog.csdn.net/dundunmm/article/details/144652230

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：Pytorch | 利用AI-FGTM针对CIFAR10上的ResNet分类器进行对抗攻击
下一篇：PyCharm专项练习3 图的存储：邻接矩阵+邻接链表

Slate文档编辑器-TS类型扩展与节点类型检查
在这里我们更专注于文档编辑器的数据结构设计，聊聊基于slate实现的文档编辑器类型系统。在slate中还有很多额外的概念和操作需要关注，例如RangeOperationEditorElementPat
阅读更多2024-12-27
详细讲解axios封装与api接口封装管理
axios是基于promise的http客户端，用于浏览器和nodejs发送http请求，对它进行封装主要是为了统一管理请求配置和处理请求和响应的通用逻辑等。以下是常用的封装逻辑和要点1：引入axi
阅读更多2024-12-27
【VScode】第三方GPT编程工具-CodeMoss安装教程
每个人的编程习惯和需求都不尽相同，CodeMoss允许用户根据自己的需求自定义助手。你可以设置常用的代码片段、快捷命令，甚至是特定的编程语言环境，让你的编程体验更加个性化。希望通过这篇文章，能够帮助你
阅读更多2024-12-27
数据库索引与 MVCC：原理、应用及事务隔离
在当今数字化时代，数据库作为数据管理与处理的核心工具，其性能与数据一致性至关重要。无论是小型企业的日常运营数据存储，还是大型互联网公司海量用户信息的管理，都离不开高效稳定的数据库系统。在数据库的优化与
阅读更多2024-12-27
Selenium 浏览器驱动代理 - 无需下载本地浏览器驱动镜像！（Python 版本！）
当我们使用selenium 浏览器驱动的时候，我们常用做法就是，针对不同的浏览器下载不同的镜像版本，然后再安装到 python 安装目录下，然后再进行浏览器访问；这样做的缺点在于：当浏览器更新版本时候
阅读更多2024-12-27
vue3 ref reactive响应式数据，赋值的问题、解构失去响应式问题
创建响应式数据时，赋值操作和解构赋值存在一些需要注意的事项。时，应注意正确的赋值方式和解构赋值导致的响应性丢失问题。函数，可以有效避免这些问题，确保数据的响应性。总结来说，在 Vue3 中使用。在 V
阅读更多2024-12-27
深度学习使用Anaconda打开Jupyter Notebook编码
新手入门深度学习使用Anaconda打开Jupyter Notebook编码，以及初学Anaconda
阅读更多2024-12-27
FFmpeg来从HTTP拉取流并实时推流到RTMP服务器
请注意，你需要将命令中的"输入流地址"替换为实际的HTTP拉取流地址，以及"RTMP服务器地址"、"应用名称"和"流名称"
阅读更多2024-12-27
实用技巧：关于 AD修改原理图库如何同步更新到有原理图的解决方法
修改了原理图库添加了一些描述，需要更新到原来的原理图上去。
阅读更多2024-12-27
前端（八）js介绍(1)
javaScript一般用来编写客户端脚本，来为html页面添加交互行为，是前台语言，而不是后台语言。< script > // 方式一 </ script >< scr
阅读更多2024-12-27