一个简单的机器学习实战例程，使用Scikit-Learn库来完成一个常见的分类任务——鸢尾花数据集（Iris Dataset）的分类

🕗 发布于 2024-12-25 12:55 机器学习 人工智能 神经网络 深度学习 sklearn

机器学习实战通常是将理论与实践结合，通过实际的项目或案例，帮助你理解并应用各种机器学习算法。下面是一个简单的机器学习实战例程，使用Scikit-Learn库来完成一个常见的分类任务——**鸢尾花数据集（Iris Dataset）**的分类。我们将通过该数据集来演示数据预处理、模型训练、评估和预测的全过程。

访问更多内容来源 https://ai.tmqcjr.com

1. 安装所需库

首先，确保你已安装了scikit-learn和matplotlib等库，如果没有，请通过以下命令安装：

bash

复制代码

pip install scikit-learn matplotlib

2. 机器学习实战例程

导入必要的库

python

复制代码

import numpy as np import matplotlib.pyplot as plt from sklearn.datasets import load_iris from sklearn.model_selection import train_test_split from sklearn.preprocessing import StandardScaler from sklearn.neighbors import KNeighborsClassifier from sklearn.svm import SVC from sklearn.tree import DecisionTreeClassifier from sklearn.ensemble import RandomForestClassifier from sklearn.metrics import classification_report, confusion_matrix, accuracy_score

加载数据集

我们使用Scikit-Learn自带的鸢尾花数据集，这是一个经典的机器学习数据集。

python

复制代码

# 加载鸢尾花数据集 iris = load_iris() X = iris.data # 特征数据（花瓣和萼片的长度和宽度） y = iris.target # 标签数据（花的种类）

数据探索

在开始训练模型之前，我们可以对数据进行简单的探索，比如查看数据的维度和前几行。

python

复制代码

# 查看数据集的结构 print(f"数据集的特征名称: {iris.feature_names}") print(f"数据集的标签名称: {iris.target_names}") print(f"数据集的特征形状: {X.shape}") print(f"数据集的标签形状: {y.shape}") # 查看前5行数据 print(f"特征数据:\n{X[:5]}") print(f"标签数据:\n{y[:5]}")

数据划分

我们将数据集划分为训练集和测试集，通常使用70%训练，30%测试的比例。

python

复制代码

# 划分数据集为训练集和测试集 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42) print(f"训练集的样本数量: {X_train.shape[0]}") print(f"测试集的样本数量: {X_test.shape[0]}")

数据预处理

在使用机器学习模型之前，通常需要对数据进行标准化处理，以便提高模型的性能。

python

复制代码

# 数据标准化：将特征缩放至均值为0，方差为1的标准正态分布 scaler = StandardScaler() X_train = scaler.fit_transform(X_train) X_test = scaler.transform(X_test)

训练模型

我们将训练多个机器学习模型进行比较。这里使用常见的几种分类模型：K近邻（KNN）、支持向量机（SVM）、决策树和随机森林。

1. K近邻（KNN）

python

复制代码

# 初始化KNN模型并训练 knn = KNeighborsClassifier(n_neighbors=3) knn.fit(X_train, y_train) # 在测试集上评估模型 y_pred_knn = knn.predict(X_test) print("KNN分类报告:") print(classification_report(y_test, y_pred_knn)) print(f"KNN的准确率: {accuracy_score(y_test, y_pred_knn)}")

2. 支持向量机（SVM）

python

复制代码

# 初始化SVM模型并训练 svm = SVC(kernel='linear') svm.fit(X_train, y_train) # 在测试集上评估模型 y_pred_svm = svm.predict(X_test) print("SVM分类报告:") print(classification_report(y_test, y_pred_svm)) print(f"SVM的准确率: {accuracy_score(y_test, y_pred_svm)}")

3. 决策树（Decision Tree）

python

复制代码

# 初始化决策树模型并训练 dt = DecisionTreeClassifier(random_state=42) dt.fit(X_train, y_train) # 在测试集上评估模型 y_pred_dt = dt.predict(X_test) print("决策树分类报告:") print(classification_report(y_test, y_pred_dt)) print(f"决策树的准确率: {accuracy_score(y_test, y_pred_dt)}")

4. 随机森林（Random Forest）

python

复制代码

# 初始化随机森林模型并训练 rf = RandomForestClassifier(n_estimators=100, random_state=42) rf.fit(X_train, y_train) # 在测试集上评估模型 y_pred_rf = rf.predict(X_test) print("随机森林分类报告:") print(classification_report(y_test, y_pred_rf)) print(f"随机森林的准确率: {accuracy_score(y_test, y_pred_rf)}")

评估模型

使用classification_report来评估模型的性能，显示精确度（Precision）、召回率（Recall）和F1-score。accuracy_score则显示整体的分类准确率。

python

复制代码

# 显示每个模型的准确率 models = ['KNN', 'SVM', '决策树', '随机森林'] accuracies = [ accuracy_score(y_test, y_pred_knn), accuracy_score(y_test, y_pred_svm), accuracy_score(y_test, y_pred_dt), accuracy_score(y_test, y_pred_rf) ] for model, accuracy in zip(models, accuracies): print(f"{model}的准确率: {accuracy}")

混淆矩阵

为了进一步分析模型的分类效果，可以绘制混淆矩阵。

python

复制代码

# 绘制混淆矩阵 def plot_confusion_matrix(cm, classes): plt.figure(figsize=(6, 6)) plt.imshow(cm, interpolation='nearest', cmap=plt.cm.Blues) plt.title('Confusion Matrix') plt.colorbar() tick_marks = np.arange(len(classes)) plt.xticks(tick_marks, classes, rotation=45) plt.yticks(tick_marks, classes) plt.xlabel('Predicted label') plt.ylabel('True label') plt.tight_layout() # KNN模型的混淆矩阵 cm_knn = confusion_matrix(y_test, y_pred_knn) plot_confusion_matrix(cm_knn, iris.target_names) # 显示图形 plt.show()

预测新数据

最后，我们可以使用训练好的模型对新的数据进行预测。

python

复制代码

# 使用KNN模型对新样本进行预测 new_data = np.array([[5.1, 3.5, 1.4, 0.2]]) # 一个新的样本（鸢尾花特征） new_data = scaler.transform(new_data) # 标准化 prediction = knn.predict(new_data) print(f"预测的花种类: {iris.target_names[prediction]}")

3. 模型总结

通过上述步骤，我们完成了以下内容：

数据加载与预处理：加载鸢尾花数据集并进行标准化处理。
模型训练与评估：训练了4个常见的机器学习模型（KNN、SVM、决策树和随机森林），并通过classification_report和accuracy_score评估了各个模型的性能。
模型预测：使用训练好的模型对新数据进行了预测。

4. 总结

KNN：适合用于小型数据集，计算复杂度较高。
SVM：对于中小型数据集效果不错，但训练时间较长。
决策树：易于理解和解释，但容易过拟合。
随机森林：通过集成多棵决策树，通常表现良好，减少了过拟合的风险。

在实际的机器学习项目中，你可以根据任务的特点选择合适的模型，并不断调整参数以优化模型的表现。

原文地址：https://blog.csdn.net/2403_86950003/article/details/144696492

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：基于cobra开发的k8s命令行管理工具k8s-manager
下一篇：【机器学习】机器学习的基本分类-强化学习-Actor-Critic 方法

半连接转内连接 | OceanBase SQL 查询改写
本文主要介绍OceanBase的半连接转内连接改写，以及这个改写的优化点、容易被忽略的错误。OceanBase会把满足一定条件的半连接转换成内连接，使优化器能够尝试更多的计划，生成的查询计划可能更优。
阅读更多2024-12-25
Oracle中间件 SOA之 OSB 12C服务器环境搭建
RCU安装 1.使用命令行进入服务器 /oracle/fmwhome/oracle_common/bin目录 cd /oracle/fmwhome/oracle_common/bin 2.执行.rcu
阅读更多2024-12-25
JSON 系列之1：将 JSON 数据存储在 Oracle 数据库中
本文为Oracle数据库JSON学习系列的第一篇，讲述如何将JSON文档存储到数据库中，包括了版本为19c和23ai的情形。
阅读更多2024-12-25
Spring基础分析13-Spring Security框架
Spring Security提供了全面的安全服务，在身份验证和授权两个核心领域中，为基于Spring的应用程序提供了强有力的保护。它不仅能够保护Web应用程序，还能保护非Web的Java应用程序。从
阅读更多2024-12-25
了解Hadoop
扩展数据计算spark：基于内存：spark核心+sparkSQL+sparkStreaming+MLlib+Graphx。localFS单机存储、SQL单机计算。
阅读更多2024-12-25
【终端工具】FinalShell v4.5.12 官方版
FinalShell是一款免费的跨平台远程管理工具，专为开发者和运维人员设计。它支持通过 SSH、SFTP 等方式连接到 Linux 和 Windows 服务器，提供类似于终端的操作界面。除了常规的远
阅读更多2024-12-25
gitlab克隆仓库报错fatal: unable to access ‘仓库地址xxxxxxxx‘
下次如果在遇到这种问题可以尝试一下。
阅读更多2024-12-25
设计模式的主要分类是什么？请简要介绍每个分类的特点。
设计模式的主要分类是什么？请简要介绍每个分类的特点。
阅读更多2024-12-25
无人机+自组网+通信指挥车：应急救援空地技术详解
这一技术组合不仅提高了救援行动的效率和准确性，还为指挥人员提供了实时的决策支持，为灾害救援和军事行动等应用场景提供了有力的技术保障。“无人机+自组网+通信指挥车”这一组合在应急救援领域展现出了强大的空
阅读更多2024-12-25
在线学习平台推荐系统的设计
在线学习平台推荐系统的设计是一个持续迭代和优化的过程。通过不断引入新的技术和算法，提高推荐的准确性和用户满意度，可以为用户提供更加精准、高效的学习服务。同时，随着在线教育行业的不断发展，该系统也将面临
阅读更多2024-12-25

一个简单的机器学习实战例程，使用Scikit-Learn库来完成一个常见的分类任务——**鸢尾花数据集（Iris Dataset）**的分类

1. 安装所需库

2. 机器学习实战例程

导入必要的库

加载数据集

数据探索

数据划分

数据预处理

训练模型

1. K近邻（KNN）

2. 支持向量机（SVM）

3. 决策树（Decision Tree）

4. 随机森林（Random Forest）

评估模型

混淆矩阵

预测新数据

3. 模型总结

4. 总结

相关文章

一个简单的机器学习实战例程，使用Scikit-Learn库来完成一个常见的分类任务——鸢尾花数据集（Iris Dataset）的分类