Python 课程13-机器学习

🕗 发布于 2024-09-17 04:41 python 开发语言 機器學習

前言

数据科学 和 机器学习 涉及从原始数据的处理到模型的构建与评估，是一套完整的流程。在这一过程中，Python 提供了许多强大的工具和库，如 Pandas、NumPy、Matplotlib、Seaborn、以及最重要的机器学习库 scikit-learn。这些工具可以帮助我们完成从数据清洗、特征选择、模型训练到评估的全过程。

本教程将提供每个指令的详细说明，并辅以代码示例。目标是让你对整个数据科学与机器学习的流程有深刻的理解，并能在实际项目中熟练应用这些知识。

Pandas：数据处理与清洗
- 数据导入与导出
- 数据查看与筛选
- 缺失值处理
- 重复值处理
- 数据标准化与归一化
- 数据分组与聚合
NumPy：数值运算
- 数组的创建与操作
- 数组的广播机制
- 基本的矩阵运算
- 随机数生成
Matplotlib 与 Seaborn：数据可视化
- 绘制折线图、柱状图、散点图与直方图
- 自定义图表（标题、标签、颜色等）
- 使用 Seaborn 绘制热力图与分布图
scikit-learn：机器学习基础
- 数据集拆分：训练集与测试集
- 监督学习：线性回归与分类
- 非监督学习：K-Means 聚类
- 模型评估：交叉验证与性能指标

1. Pandas：数据处理与清洗

数据导入与导出

Pandas 是一个强大的数据处理库。我们通常会通过 Pandas 读取 CSV、Excel 或其他格式的数据文件，并将其存储为 DataFrame 对象。

读取 CSV 文件：

import pandas as pd

# 读取 CSV 文件
df = pd.read_csv('data.csv')

# 查看数据前 5 行
print(df.head())

保存 DataFrame 为 CSV 文件：

df.to_csv('output.csv', index=False)

数据查看与筛选

查看数据概况：

# 查看数据的基本信息（数据类型、非空值等）
print(df.info())

# 查看数据的统计信息（均值、标准差等）
print(df.describe())

# 查看前几行数据
print(df.head(10))

筛选特定列与行：

# 筛选特定列
df_subset = df[['Name', 'Age']]

# 筛选特定行（年龄大于 30）
df_filtered = df[df['Age'] > 30]

缺失值处理

现实世界中的数据常常包含缺失值，Pandas 提供了简单的方法来处理这些缺失值。

检查缺失值：

# 检查每一列的缺失值数量
print(df.isnull().sum())

填充缺失值：

# 用平均值填充缺失值
df['Age'].fillna(df['Age'].mean(), inplace=True)

删除包含缺失值的行：

# 删除包含任何缺失值的行
df_cleaned = df.dropna()

重复值处理

检查与删除重复值：
```
# 检查重复值
print(df.duplicated())

# 删除重复值
df_cleaned = df.drop_duplicates()
```
数据标准化与归一化

标准化 和 归一化 是将数据转化为统一范围或分布的常用方法，尤其在机器学习中，标准化和归一化是非常重要的步骤。

标准化：

from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
df[['Age', 'Salary']] = scaler.fit_transform(df[['Age', 'Salary']])

归一化：

from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()
df[['Age', 'Salary']] = scaler.fit_transform(df[['Age', 'Salary']])

数据分组与聚合

按特定列分组并计算聚合结果：
```
# 按 'Gender' 列分组，并计算每组的平均工资
df_grouped = df.groupby('Gender')['Salary'].mean()
print(df_grouped)
```
2. NumPy：数值运算

NumPy 是 Python 中用于科学计算的核心库。它提供了强大的数组对象和一系列高效的数值计算功能。

数组的创建与操作

创建数组：

import numpy as np

# 创建一维数组
arr = np.array([1, 2, 3, 4, 5])

# 创建二维数组
arr_2d = np.array([[1, 2, 3], [4, 5, 6]])

# 创建全零数组
zeros_arr = np.zeros((3, 3))

# 创建全一数组
ones_arr = np.ones((2, 4))

数组切片与索引：

# 访问数组中的元素
print(arr[0])  # 输出第一个元素

# 访问二维数组中的特定行与列
print(arr_2d[1, 2])  # 输出第二行第三列的元素

# 数组切片
print(arr[:3])  # 输出前 3 个元素

数组的广播机制

广播机制 是 NumPy 中的一个强大特性，允许不同形状的数组进行数学运算。

arr1 = np.array([1, 2, 3])
arr2 = np.array([[10], [20], [30]])

# 广播机制将 arr1 复制为 3x3 的数组，并与 arr2 相加
result = arr1 + arr2
print(result)

基本的矩阵运算

矩阵相乘：

arr1 = np.array([[1, 2], [3, 4]])
arr2 = np.array([[5, 6], [7, 8]])

# 矩阵乘法
result = np.dot(arr1, arr2)
print(result)

随机数生成

生成随机数数组：
```
# 生成 0 到 1 之间的随机数
rand_arr = np.random.rand(3, 3)

# 生成正态分布的随机数
randn_arr = np.random.randn(2, 2)
```
3. Matplotlib 与 Seaborn：数据可视化

数据可视化是数据分析的重要组成部分，通过图表能够直观地展示数据的趋势与分布。

绘制折线图、柱状图、散点图与直方图

Matplotlib 是 Python 中最常用的绘图库，而 Seaborn 是基于 Matplotlib 的高级可视化库，提供了更美观的默认样式。

绘制折线图：

import matplotlib.pyplot as plt

x = [1, 2, 3, 4, 5]
y = [10, 15, 13, 18, 16]

plt.plot(x, y)
plt.title("Line Plot Example")
plt.xlabel("X Axis")
plt.ylabel("Y Axis")
plt.show()

绘制柱状图：

categories = ['A', 'B', 'C', 'D']
values = [5, 7, 3, 8]

plt.bar(categories, values)
plt.title("Bar Plot Example")
plt.xlabel("Category")
plt.ylabel("Value")
plt.show()

绘制散点图：

import numpy as np

x = np.random.rand(50)
y = np.random.rand(50)

plt.scatter(x, y)
plt.title("Scatter Plot Example")
plt.xlabel("X Axis")
plt.ylabel("Y Axis")
plt.show()

绘制直方图：

data = np.random.randn(1000)

plt.hist(data, bins=30, alpha=0.5)
plt.title("Histogram Example")
plt.xlabel("Value")
plt.ylabel("Frequency")
plt.show()

使用 Seaborn 绘制热力图与分布图

绘制热力图：

import seaborn as sns

# 创建相关矩阵的热力图
corr = df.corr()
sns.heatmap(corr, annot=True, cmap='coolwarm')
plt.title("Heatmap Example")
plt.show()

绘制分布图：

sns.histplot(df['Age'], kde=True)
plt.title('Age Distribution')
plt.show()

4. scikit-learn：机器学习基础

scikit-learn 是 Python 中最常用的机器学习库之一，提供了各种常见的机器学习算法、数据集处理工具、模型评估方法等。通过 scikit-learn，你可以快速构建监督学习和非监督学习模型。

数据集拆分：训练集与测试集

在训练机器学习模型之前，通常会将数据集拆分为 训练集 和 测试集。训练集用于训练模型，而测试集用于评估模型的性能。
使用 train_test_split 进行数据集拆分：
```
from sklearn.model_selection import train_test_split

# 假设我们有特征数据 X 和标签 y
X = df[['Age', 'Salary']]  # 特征
y = df['HighSalary']       # 标签

# 使用 80% 的数据作为训练集，20% 作为测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
```
监督学习：线性回归与分类

监督学习是一种有标签的数据学习方法，常见的监督学习算法包括 线性回归、分类算法（如决策树、支持向量机等）。

线性回归

线性回归用于解决回归问题，目标是通过输入特征预测连续值输出。

线性回归示例：

from sklearn.linear_model import LinearRegression

# 创建线性回归模型
model = LinearRegression()

# 训练模型
model.fit(X_train, y_train)

# 使用训练好的模型进行预测
predictions = model.predict(X_test)

# 查看模型系数
print("Coefficients:", model.coef_)
print("Intercept:", model.intercept_)

分类算法（决策树）

分类算法用于预测离散的类别标签。例如，我们可以通过决策树算法预测一个人是否收入高于某个值。

决策树分类器示例：

from sklearn.tree import DecisionTreeClassifier

# 假设我们有一个分类标签
df['HighSalary'] = df['Salary'] > 50000

# 训练决策树分类器
X = df[['Age', 'Salary']]
y = df['HighSalary']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

clf = DecisionTreeClassifier()
clf.fit(X_train, y_train)

# 预测
predictions = clf.predict(X_test)
print("Predictions:", predictions)

非监督学习：K-Means 聚类

非监督学习是一种没有标签的数据学习方法，常用于数据聚类、降维等。常用的非监督学习算法包括 K-Means 聚类。

K-Means 聚类

K-Means 聚类用于将数据分成 k 个不同的簇。每个数据点被分配到离它最近的簇中心。

K-Means 聚类示例：

from sklearn.cluster import KMeans

# 使用 K-Means 进行聚类
kmeans = KMeans(n_clusters=3)
kmeans.fit(X)

# 获取聚类标签
df['Cluster'] = kmeans.labels_

# 可视化聚类结果
import seaborn as sns
import matplotlib.pyplot as plt

plt.figure(figsize=(8, 6))
sns.scatterplot(x='Age', y='Salary', hue='Cluster', data=df, palette='Set1')
plt.title('K-Means Clustering')
plt.show()

机器学习模型评估

模型评估是机器学习中至关重要的一步，用于评估模型在新数据上的表现。常见的评估方法有准确率（分类问题）和均方误差（回归问题）。

分类模型的评估：准确率

使用 accuracy_score 评估分类模型：

from sklearn.metrics import accuracy_score

# 对于分类模型，使用准确率进行评估
accuracy = accuracy_score(y_test, predictions)
print(f"Accuracy: {accuracy:.2f}")

回归模型的评估：均方误差

使用 mean_squared_error 评估回归模型：
```
from sklearn.metrics import mean_squared_error

# 对于回归模型，使用均方误差进行评估
mse = mean_squared_error(y_test, predictions)
print(f"Mean Squared Error: {mse:.2f}")
```
交叉验证

交叉验证是一种评估模型性能的技术，通常通过将数据分为多个子集，多次训练和测试模型，避免过拟合。

使用 cross_val_score 进行交叉验证：

from sklearn.model_selection import cross_val_score

# 进行 5 折交叉验证
scores = cross_val_score(model, X, y, cv=5)

# 输出每次验证的得分
print("Cross-validation scores:", scores)

# 输出平均得分
print("Average score:", scores.mean())

示例：构建一个完整的机器学习项目

让我们通过一个完整的示例，展示如何使用 scikit-learn 进行一个完整的机器学习流程。

任务：预测波士顿房价

我们使用 scikit-learn 中的 波士顿房价数据集，通过线性回归模型预测房价。

from sklearn.datasets import load_boston
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

# 加载波士顿房价数据集
boston = load_boston()
X = boston.data
y = boston.target

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 创建线性回归模型
model = LinearRegression()

# 训练模型
model.fit(X_train, y_train)

# 进行预测
predictions = model.predict(X_test)

# 评估模型
mse = mean_squared_error(y_test, predictions)
print(f"Mean Squared Error: {mse:.2f}")

在这个项目中，我们使用了 波士顿房价数据集，通过 线性回归模型 进行房价预测，并使用 均方误差 来评估模型的性能。

结论

通过本教程，你已经学习了如何使用 Python 中的各个工具库进行数据处理、可视化和机器学习。我们从基础的 Pandas 数据处理和 NumPy 数值计算开始，逐步深入到 Matplotlib 和 Seaborn 的数据可视化，最后详细介绍了 scikit-learn 中常用的机器学习算法及其应用。

Pandas 和 NumPy 为你提供了强大的数据处理和数值运算能力。
Matplotlib 和 Seaborn 帮助你快速生成各种图表，直观展示数据。
scikit-learn 则让你能够轻松构建、训练和评估机器学习模型。

原文地址：https://blog.csdn.net/tim654654/article/details/142308779

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：华为发布大容量128TB SSD：空间利用率提升10倍
下一篇：机器学习-深度学习数据集之打架斗殴识别数据集

set-ExecutionPolicy RemoteSigned 提示不是内部或外部命令，也不是可运行的程序或批处理文件
这个错误一般发生在使用命令提示符或者PowerShell窗口中找不到set-ExecutionPolicy RemoteSigned。如果你想在命令提示符或者PowerShell窗口运行set-Exe
阅读更多2024-09-23
Python知识点：Python垃圾回收机制深入剖析
Python的垃圾回收机制主要依赖于三种技术：引用计数、标记-清除算法和分代回收策略。Python的垃圾回收机制通过引用计数和循环垃圾回收，有效地管理了内存资源。了解和掌握垃圾回收的原理和使用方法，可
阅读更多2024-09-23
SpringCloud Alibaba之Seata处理分布式事务
Seata是一款开源的分布式事务解决方案，致力于在微服务架构下提供高性能和简单易用的分布式事务服务。AT模式如何做到对业务的无侵入（事务尽量不要超过5个，容易出事故，3个一个事务提交，再组合）（1）一
阅读更多2024-09-23
Hi3559A/C V100 集成了双核 A73 和双核 A53，支持 8K30/4K120 视频录制
7680 x 4320@15fps JPEG 解码。提供了高效且丰富的计算资源，支撑客户消费类应用和行业类应用。输出，最高频率支持到 2.5Gbps/Lane。高动态范围技
阅读更多2024-09-23
Linux：环境变量
为什么我们平时输入的指令可以直接运行，但是自己编译出来的程序却要加 ./?
阅读更多2024-09-23
深度学习电脑独显GPU占用一直0%解决方式
在系统设置里面把硬件加速GPU计划关了。打开任务管理器可以看到独显开始工作了。再在GPU1中将3D改成Cuda即可。
阅读更多2024-09-23
vim入门操作命令
vim 工具本身提供了许多常用快捷键，以下是一些常用的命令
阅读更多2024-09-23
Ubuntu清理内存导致的一系列错误及解决方法
虚拟机遇到问题的记录
阅读更多2024-09-23
鸿蒙OpenHarmony【轻量系统内核扩展组件(C++支持)】子系统开发
C++作为目前使用最广泛的编程语言之一，支持类、封装、重载等特性，是在C语言基础上开发的一种面向对象的编程语言。
阅读更多2024-09-23
Delphi 12.2 新增的 WebStencils 尝鲜
这个有本文上述的 github 链接里面的例子代码。1. 使用一个框架页面，在需要装正式内容的地方，写上：@RenderBody;2. 页面内容文件比如 index.html，不需要有页面框架代码诸如
阅读更多2024-09-23

Python 课程13-机器学习

前言

目录

1. Pandas：数据处理与清洗

数据导入与导出

数据查看与筛选

缺失值处理

重复值处理

数据标准化与归一化

数据分组与聚合

2. NumPy：数值运算

数组的创建与操作

数组的广播机制

基本的矩阵运算

随机数生成

3. Matplotlib 与 Seaborn：数据可视化

绘制折线图、柱状图、散点图与直方图

使用 Seaborn 绘制热力图与分布图

4. scikit-learn：机器学习基础

数据集拆分：训练集与测试集

监督学习：线性回归与分类

线性回归