【sklearn | 7】：scikit-learn项目实战指南

🕗 发布于 2024-07-18 11:53 深入Scikit-learn：掌握Python最强大的机器学习库 scikit-learn python 机器学习 人工智能

在这里插入图片描述

引言

在数据科学和机器学习领域，Python以其简洁的语法和强大的库支持，成为了许多开发者和研究者的首选语言。而在众多Python机器学习库中，scikit-learn以其易用性、灵活性和强大的算法集合，成为了最受欢迎的库之一。本文将深入探讨scikit-learn的原理和应用，并通过项目案例展示其在实际问题解决中的强大能力。

一、scikit-learn简介

scikit-learn是一个基于Python的开源机器学习库，建立在NumPy、SciPy和matplotlib这些科学计算库之上。它提供了简单而高效的数据挖掘和数据分析工具，包括分类、回归、聚类和降维等机器学习算法。

二、原理介绍

2.1. 算法基础

scikit-learn实现了多种机器学习算法，包括但不限于：

线性模型：如线性回归、逻辑回归等。
决策树：用于分类和回归问题。
支持向量机（SVM）：用于分类和回归问题。
随机森林：一种集成学习方法，由多个决策树组成。
聚类算法：如K-means、层次聚类等。
降维技术：如主成分分析（PCA）和线性判别分析（LDA）。

2.2. 模型训练与评估

scikit-learn提供了统一的接口来训练模型和评估模型性能。使用fit方法训练模型，使用predict方法进行预测。此外，scikit-learn还提供了多种评估指标，如准确率、召回率、F1分数等，以及交叉验证工具来评估模型的泛化能力。

2.3. 特征工程

特征工程是机器学习中的关键步骤，scikit-learn提供了丰富的特征提取和转换工具，如：

特征选择：选择对模型性能影响最大的特征。
特征提取：从原始数据中提取新特征。
特征缩放：标准化或归一化特征，以提高模型性能。

三、项目案例概况

3.1. 鸢尾花分类

使用scikit-learn进行鸢尾花（Iris）数据集的分类。通过逻辑回归、决策树或随机森林等算法，实现对鸢尾花种类的准确预测。

3.2. 房价预测

构建一个回归模型来预测房价。使用波士顿房价数据集，通过特征选择和模型调优，提高预测的准确性。

3.3. 客户细分

使用K-means聚类算法对客户数据进行细分，帮助企业更好地了解客户群体，实现精准营销。

四、实践建议

数据理解：深入理解数据集的特征和分布，为特征工程和模型选择提供依据。
模型选择：根据问题类型选择合适的算法。
参数调优：使用网格搜索（GridSearchCV）等技术进行参数调优，以获得最佳模型性能。
模型评估：使用交叉验证等方法评估模型的泛化能力。

下面让我们通过具体的项目案例来展示scikit-learn的使用。以下是一个使用scikit-learn进行鸢尾花（Iris）数据集分类的简单示例。

五、案例详解1：鸢尾花数据集分类

5.1. 数据加载

首先，我们需要加载鸢尾花数据集。scikit-learn提供了内置的数据集加载功能。

from sklearn.datasets import load_iris
iris = load_iris()
X, y = iris.data, iris.target

5.2. 数据探索

在进行模型训练之前，了解数据集的基本统计信息是很有帮助的。

print("Feature names:", iris.feature_names)
print("Target names:", iris.target_names)
print("Shape of the data:", X.shape)

5.3. 数据划分

将数据集划分为训练集和测试集。

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

5.4. 模型选择

选择一个分类器，这里我们使用决策树分类器。

from sklearn.tree import DecisionTreeClassifier

clf = DecisionTreeClassifier(random_state=42)

5.5. 模型训练

使用训练集数据训练模型。

clf.fit(X_train, y_train)

5.6. 模型评估

评估模型在测试集上的性能。

from sklearn.metrics import classification_report, accuracy_score

y_pred = clf.predict(X_test)
print("Accuracy:", accuracy_score(y_test, y_pred))
print(classification_report(y_test, y_pred))

5.7 特征重要性

查看决策树分类器中各个特征的重要性。

importances = clf.feature_importances_
feature_names = iris.feature_names

print("Feature importances:")
for name, importance in zip(feature_names, importances):
    print(f"{name}: {importance}")

5.8 可视化决策树

使用plot_tree函数可视化决策树。

from sklearn.tree import plot_tree
import matplotlib.pyplot as plt

plt.figure(figsize=(12, 8))
plot_tree(clf, filled=True, feature_names=feature_names, class_names=iris.target_names)
plt.show()

这个案例展示了如何使用scikit-learn进行一个简单的机器学习项目，从数据加载到模型训练、评估和可视化。在实际应用中，你可能还需要进行更多的数据预处理、特征工程、模型调优和验证步骤。

请注意，为了运行上述代码，你需要安装scikit-learn和matplotlib库。如果你还没有安装，可以通过以下命令安装：

pip install scikit-learn matplotlib

5.9完整代码

import numpy as np
import pandas as pd
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import classification_report, accuracy_score
from sklearn.tree import plot_tree
import matplotlib.pyplot as plt

# 加载数据
iris = load_iris()
X, y = iris.data, iris.target

# 将数据转换为Pandas DataFrame
df = pd.DataFrame(X, columns=iris.feature_names)
df['target'] = y

# 数据划分
X_train, X_test, y_train, y_test = train_test_split(df.iloc[:, :-1], df['target'], test_size=0.3, random_state=42)

# 创建决策树分类器
clf = DecisionTreeClassifier(random_state=42)

# 训练模型
clf.fit(X_train, y_train)

# 预测测试集
y_pred = clf.predict(X_test)

# 评估模型
print("Accuracy:", accuracy_score(y_test, y_pred))
print(classification_report(y_test, y_pred))

# 特征重要性
importances = clf.feature_importances_
feature_names = iris.feature_names

print("Feature importances:")
for name, importance in zip(feature_names, importances):
    print(f"{name}: {importance}")

# 可视化决策树
plt.figure(figsize=(12, 8))
plot_tree(clf, filled=True, feature_names=feature_names, class_names=iris.target_names)
plt.show()

这个案例仅提供了一个基础的框架，实际项目中可能需要根据具体需求进行调整和优化。

让我们通过一个更复杂的项目案例来展示scikit-learn的应用：使用机器学习进行房价预测。这个案例将包括数据预处理、特征工程、模型选择、参数调优和模型评估。

六、项目案例2：房价预测

6.1 数据加载与初步探索

加载波士顿房价数据集，并进行初步的数据探索。

from sklearn.datasets import load_boston
import pandas as pd

boston = load_boston()
df = pd.DataFrame(boston.data, columns=boston.feature_names)
df['MEDV'] = boston.target

print(df.head())
print(df.describe())

6.2 数据预处理

处理缺失值和异常值，如果需要的话，进行数据标准化。

# 检查缺失值
print(df.isnull().sum())

# 标准化特征
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
features = df.columns[:-1]  # 假设最后一列是目标变量
df[features] = scaler.fit_transform(df[features])

6.3 特征工程

创建新特征或转换现有特征以提高模型性能。

# 假设我们创建一个新特征，例如房屋平均房间数
df['AveRooms'] = df['RM'] / df['TAX']

6.4 数据划分

将数据集划分为训练集和测试集。

from sklearn.model_selection import train_test_split

X = df[features]
y = df['MEDV']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

6.5 模型选择与参数调优

选择多个模型，使用网格搜索进行参数调优。

from sklearn.model_selection import GridSearchCV
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error

# 定义模型和参数网格
model = RandomForestRegressor(random_state=42)
param_grid = {
    'n_estimators': [50, 100, 200],
    'max_depth': [None, 10, 20, 30],
    'min_samples_split': [2, 5, 10]
}

# 网格搜索
grid_search = GridSearchCV(estimator=model, param_grid=param_grid, cv=5, scoring='neg_mean_squared_error')
grid_search.fit(X_train, y_train)

# 最佳参数
print("Best parameters:", grid_search.best_params_)

6.6 模型训练与评估

使用最佳参数训练模型，并在测试集上评估性能。

best_model = grid_search.best_estimator_
y_pred = best_model.predict(X_test)

# 评估模型
print("Mean squared error:", mean_squared_error(y_test, y_pred))

6.7 结果分析

分析模型预测结果，如残差图等。

import numpy as np
import matplotlib.pyplot as plt

residuals = y_test - y_pred
plt.scatter(y_test, residuals)
plt.axhline(y=0, color='r', linestyle='--')
plt.xlabel('Observed')
plt.ylabel('Residuals')
plt.title('Residual Plot')
plt.show()

6.8 模型优化

根据模型评估结果，考虑进一步优化模型，例如特征选择、模型融合等。

6.9 部署

最后，将训练好的模型部署到生产环境中，进行实时预测。

这个案例展示了一个更复杂的机器学习项目流程，包括数据预处理、特征工程、模型选择和调优、评估和结果分析。在实际项目中，可能还需要考虑模型的可解释性、模型的在线更新、大规模数据处理等问题。

6.10 完整代码

import numpy as np
import pandas as pd
from sklearn.datasets import load_boston
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.ensemble import RandomForestRegressor
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import mean_squared_error
import matplotlib.pyplot as plt

# 加载数据
boston = load_boston()
df = pd.DataFrame(boston.data, columns=boston.feature_names)
df['MEDV'] = boston.target

# 数据预处理
# 标准化特征
scaler = StandardScaler()
features = df.columns[:-1]  # 假设最后一列是目标变量
df[features] = scaler.fit_transform(df[features])

# 数据划分
X = df[features]
y = df['MEDV']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 创建随机森林回归器
model = RandomForestRegressor(random_state=42)

# 参数网格
param_grid = {
    'n_estimators': [50, 100, 200],
    'max_depth': [None, 10, 20, 30],
    'min_samples_split': [2, 5, 10]
}

# 网格搜索
grid_search = GridSearchCV(estimator=model, param_grid=param_grid, cv=5, scoring='neg_mean_squared_error')
grid_search.fit(X_train, y_train)

# 最佳参数
print("Best parameters:", grid_search.best_params_)

# 使用最佳参数训练模型
best_model = grid_search.best_estimator_

# 预测测试集
y_pred = best_model.predict(X_test)

# 评估模型
print("Mean squared error:", mean_squared_error(y_test, y_pred))

# 残差图
residuals = y_test - y_pred
plt.scatter(y_test, residuals)
plt.axhline(y=0, color='r', linestyle='--')
plt.xlabel('Observed')
plt.ylabel('Residuals')
plt.title('Residual Plot')
plt.show()

七、结语

这两个示例展示了如何使用scikit-learn进行基本的机器学习任务。第一个示例是鸢尾花数据集的分类任务，第二个示例是波士顿房价数据集的回归任务。希望这些示例能帮助你更好地理解scikit-learn的使用。
scikit-learn作为Python中功能最全面、使用最广泛的机器学习库之一，其易用性和强大的算法集合使其成为机器学习入门和实践的不二之选。通过本文的介绍，希望你能对scikit-learn有更深入的了解，并在实际项目中发挥其强大功能。

原文地址：https://blog.csdn.net/weixin_36755535/article/details/140490354

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：【BUG】已解决：ModuleNotFoundError: No module named ‘_ctypes‘
下一篇：视频如何做成gif图？3种视频转GIF方法分享

vue3 + element-plus 的 upload + axios + django 文件上传并保存
之前在网上搜了好多教程，一直没有找到合适自己的，要么只有前端部分没有后端，要么就是写的不是很明白。所以还得靠自己摸索出来后，来此记录一下整个过程。环境安装什么的就不讲了，直接上代码好吧，这个是样式图。
阅读更多2024-11-06
Cuebric：用AI重新定义3D创作的未来
Cuebric 是一家成立于2022年夏天的好莱坞创新公司，致力于为电影、电视、游戏和时尚等行业提供先进的AI多模态SaaS平台。自2024年1月正式推出以来，Cuebric 已经在市场上获得了广泛的
阅读更多2024-11-06
easyui+vue 数据表更新问题的解决
数据的增删改查可以实时刷新出来,不建议在封装组件。nextTick 保证DOM 渲染完成。
阅读更多2024-11-06
软件测试基础：单元测试与集成测试
单元测试和集成测试是软件测试的基础，它们的重要性不言而喻。通过对软件的不同部分进行有序的测试，可以提高软件质量、减少后期维护成本，保证软件的可靠性和稳定性。软件开发者和测试人员应当重视并深入理解单元测
阅读更多2024-11-06
RxJS基本介绍以及与Promise的区别
Promise 适合处理单一的异步操作，具有更简单的 API，但缺乏灵活性和对多值的支持。RxJS (Observable) 适合处理复杂的异步流和多事件流，具有更多的操作符、错误处理机制和强大的组合
阅读更多2024-11-06
第三节 Vim编辑器与Shell命令脚本
这里的脚本主要使用 ping 命令来测试与对方主机的网络连通性，而 Linux 系统中的 ping 命令不像 Windows 一样尝试 4 次就结束，因此为了避免用户等待时间过长，需要通过-c 参数来
阅读更多2024-11-06
【JavaEE初阶 — 多线程】线程安全问题＆ synchronized
【JavaEE初阶 — 多线程】线程安全问题＆ Synchronized观察线程安全问题，分析了造成线程安全问题造成的三个原因：线程的随机调度，多个线程修改共享数据（修改同一个变量），以及原子性问题
阅读更多2024-11-06
十月末补充（？
【代码】十月末补充（？
阅读更多2024-11-06
13-鸿蒙开发中的综合实战：华为登录界面
通过本文，你已经学会了如何在鸿蒙开发中实现一个简单的登录界面，涵盖了输入框组件、按钮组件、文本组件和布局容器的使用。这个实战项目不仅帮助你巩固了基础知识，还提供了一个实际的应用场景。希望这篇文章对你有
阅读更多2024-11-06
python全栈开发《59.集合的增删改》
目录1.集合的add函数2.集合的update函数3.集合的remove函数4.集合的clear函数5.用del删除集合6.重要说明7.代码1.集合的add函数1.1add的功能用于集合中添加一个元素
阅读更多2024-11-06