Python 如何使用 scikit-learn 进行模型训练

🕗 发布于 2024-10-06 18:05 python flask django

如何使用 scikit-learn 进行模型训练

一、简介

在现代的数据科学和机器学习领域，Python 已经成为最流行的编程语言之一。而其中最流行的机器学习库之一就是 scikit-learn。scikit-learn 提供了许多方便的工具和函数来实现常见的机器学习任务，包括数据预处理、模型选择、模型评估和模型训练等。无论你是新手还是经验丰富的开发者，scikit-learn 都是一个极具价值的工具。

在这篇文章中，我们将介绍如何使用 scikit-learn 进行模型训练，从数据准备、模型选择、模型评估再到模型的保存和使用。通过简单明了的代码示例，帮助你理解如何通过 scikit-learn 完成一个标准的机器学习流程。

在这里插入图片描述

二、Scikit-learn 简介

scikit-learn 是一个开源的机器学习库，它基于其他强大的 Python 库如 NumPy、SciPy 和 matplotlib 构建，提供了许多用于数据挖掘和数据分析的算法和工具。它非常适合初学者学习和快速构建机器学习模型，同时也能满足一些复杂项目的需求。

Scikit-learn 的主要功能包括：

数据预处理：包括特征缩放、特征选择、数据归一化等。
分类：如逻辑回归、支持向量机、k近邻等。
回归：线性回归、岭回归等。
聚类：如 k-means、层次聚类等。
模型选择：交叉验证、网格搜索等。
模型评估：多种评分指标，如准确率、F1 值等。

三、使用 scikit-learn 进行模型训练的基本流程

在机器学习项目中，通常会遵循一个标准的流程来构建和评估模型。下面，我们将按照这个流程一步步展示如何使用 scikit-learn 进行模型训练。

3.1 数据准备

无论是哪种机器学习任务，首先要准备好训练数据。scikit-learn 提供了一些内置的数据集，也支持从文件中加载数据。在数据准备过程中，通常需要进行数据清理、特征缩放等预处理操作。

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

# 加载数据集
iris = load_iris()
X = iris.data  # 特征矩阵
y = iris.target  # 标签

# 将数据集分为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

在这里，我们使用了 scikit-learn 的 load_iris 函数加载了鸢尾花数据集，这是一个非常常见的分类任务数据集。接着我们使用 train_test_split 函数将数据集分为训练集和测试集，测试集占总数据的 20%。

3.2 数据预处理

在训练模型之前，我们通常需要对数据进行预处理。scikit-learn 提供了很多方便的工具来进行特征缩放、归一化、缺失值填补等操作。以特征缩放为例，下面的代码展示了如何对数据进行标准化处理。

from sklearn.preprocessing import StandardScaler

# 标准化处理
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

在这里，我们使用 StandardScaler 对数据进行标准化处理，即将每个特征的值调整为零均值和单位方差。这是为了防止某些特征对模型产生过大的影响，尤其是在距离度量或梯度下降等算法中。

3.3 选择模型并进行训练

接下来是选择合适的模型。scikit-learn 提供了很多常见的分类、回归和聚类模型。在本例中，我们将使用支持向量机（SVM）模型进行分类任务。

from sklearn.svm import SVC

# 初始化支持向量机模型
model = SVC(kernel='linear')

# 训练模型
model.fit(X_train, y_train)

在这段代码中，我们初始化了一个线性核的 SVM 模型，并用训练集 X_train 和 y_train 来训练模型。fit 函数是模型训练的核心步骤。

3.4 模型评估

训练完成后，我们需要评估模型的性能。我们可以使用测试集来验证模型的效果，并计算一些常用的性能指标，如准确率、精确率、召回率和 F1 值等。

from sklearn.metrics import accuracy_score, classification_report

# 使用模型进行预测
y_pred = model.predict(X_test)

# 计算准确率
accuracy = accuracy_score(y_test, y_pred)
print(f"模型准确率: {accuracy:.2f}")

# 打印详细分类报告
print(classification_report(y_test, y_pred))

predict 函数用于对测试数据进行预测，accuracy_score 用来计算模型的准确率。classification_report 可以输出精确率、召回率和 F1 值等详细的评估报告。

3.5 模型保存和加载

如果模型训练效果良好，我们可以将其保存下来，方便后续使用或部署。scikit-learn 提供了 joblib 模块来进行模型的序列化和反序列化。

import joblib

# 保存模型
joblib.dump(model, 'svm_model.pkl')

# 加载模型
loaded_model = joblib.load('svm_model.pkl')

# 使用加载的模型进行预测
y_pred_loaded = loaded_model.predict(X_test)

在这里，我们使用 joblib.dump 将模型保存为 .pkl 文件。然后，通过 joblib.load 可以重新加载这个模型，并直接使用它进行预测。

四、案例：使用 scikit-learn 进行线性回归

为了进一步展示 scikit-learn 的强大功能，我们再看一个回归任务的例子——使用线性回归模型来预测数据。

4.1 数据准备

首先，加载数据并将其分为训练集和测试集。

from sklearn.datasets import load_boston
from sklearn.model_selection import train_test_split

# 加载波士顿房价数据集
boston = load_boston()
X = boston.data
y = boston.target

# 将数据集分为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

4.2 数据预处理

和之前的分类任务类似，我们对数据进行标准化处理。

from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

4.3 训练线性回归模型

我们使用线性回归模型进行训练。

from sklearn.linear_model import LinearRegression

# 初始化线性回归模型
regressor = LinearRegression()

# 训练模型
regressor.fit(X_train, y_train)

4.4 模型评估

我们使用均方误差（MSE）来评估模型的表现。

from sklearn.metrics import mean_squared_error

# 使用模型进行预测
y_pred = regressor.predict(X_test)

# 计算均方误差
mse = mean_squared_error(y_test, y_pred)
print(f"均方误差: {mse:.2f}")

4.5 模型保存和加载

最后，我们将模型保存并加载。

import joblib

# 保存模型
joblib.dump(regressor, 'linear_regressor.pkl')

# 加载模型
loaded_regressor = joblib.load('linear_regressor.pkl')

五、总结

通过这篇文章，我们学习了如何使用 scikit-learn 进行模型训练，包括数据预处理、模型选择、模型训练、评估以及模型保存等步骤。scikit-learn 提供了一个简洁而强大的 API，能够帮助我们快速构建和训练各种机器学习模型。

无论是分类任务还是回归任务，scikit-learn 都能帮助我们简化开发过程。如果你刚开始学习机器学习，scikit-learn 是一个非常好的选择，它能够帮助你理解机器学习的基本流程，并逐步掌握更加复杂的模型和算法。

原文地址：https://blog.csdn.net/chusheng1840/article/details/142727581

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：文件共享软件推荐，哪些工具最实用？
下一篇：基于SpringBoot+Vue的物流管理系统

Spring Data JPA
这个接口的定义是在数据持久层（DAO 层，Repository 层），主要用于自定义一些查询方法（这是这个接口最主要的作用）。接口内部可以通过命名规则定义自定义查询方法，以便在业务逻辑层调用。（1.3
阅读更多2024-10-07
【JVM】深入解析 Java 虚拟机：内存区域、类加载与垃圾回收机制
本文介绍了 JVM 的内存区域划分、类加载过程及垃圾回收机制。内存区域包括程序计数器、堆、栈和元数据区，每个区域存储不同类型的数据。类加载过程涉及加载、验证、准备、解析和初始化五个步骤。垃圾回收机制主
阅读更多2024-10-07
鸿蒙开发（NEXT/API 12）【穿戴设备传感器获取】手机侧应用开发
手机侧应用可以通过Wear Engine获取穿戴设备上的传感器信息，并通过打开、关闭命令控制获取传感器数据。
阅读更多2024-10-07
c++剪枝
被剪枝支配的恐惧。QWQ
阅读更多2024-10-07
定时器实验(Proteus 与Keil uVision联合仿真）
一、T0工作在方式1，应使TMOD寄存器的M1、M0=01；应设置C/T*=0，为定时器模式；对T0的运行控制仅由TR0来控制，应使相应的GATE位为0。定时器T1不使用，各相关位均设为0。所以，TM
阅读更多2024-10-07
使用Python实现文本到语音转换（TTS）：打造高效易用的TTS应用
本文详细介绍了如何使用Python中的pyttsx3和gTTS库实现文本到语音转换（TTS）。我们讨论了两个库的安装、使用方法及各自的优缺点，展示了如何生成和播放语音，并通过代码示例构建了一个支持多语
阅读更多2024-10-07
亚马逊、ozon卖家：快速提升新品星级与评论数量的技巧
此外，自养号测评的技术简单易学，且可广泛应用于多个电商平台，如亚马逊、沃尔玛、eBay、Wish、Newegg、速卖通、阿里国际站、Shopee、美客多、敦煌网、Lazada、Temu、乐天、Ozon
阅读更多2024-10-07
《防MAC 地址欺骗攻击》
如果攻击者试图通过伪造多个 MAC 地址进行欺骗攻击，超过数量上限后，新的 MAC 地址将无法被学习，从而阻止攻击。将特定设备的 MAC 地址与交换机端口进行静态绑定，只有绑定的 MAC 地址对应的设
阅读更多2024-10-07
Parade Series - BASE64
Parade Series - BASE64
阅读更多2024-10-07
Stream流
在并行流中，流中的元素可以被分成多个数据块，每个块由不同的线程并行处理。并行流适合大数据量和 CPU 密集型的任务，它能够有效地利用多核 CPU 的计算能力。Stream就如同一个迭代器（Iterat
阅读更多2024-10-07