Python 机器学习核心算法实践案例

🕗 发布于 2024-10-04 07:44 python 机器学习 算法 人工智能 开发语言

Python 机器学习核心算法实践案例

📈 回归算法
- 1.1 线性回归
- 1.2 逻辑回归
📊 分类算法
- 2.1 K近邻
- 2.2 支持向量机（SVM）
- 2.3 决策树与随机森林
🔍 聚类算法
- 3.1 K均值与层次聚类
- 3.2 DBSCAN
🤖 集成学习
- 4.1 随机森林
- 4.2 梯度提升机（XGBoost与LightGBM）

1. 📈 回归算法

1.1 线性回归

线性回归是最基础的回归算法，广泛应用于预测问题。模型假设输出变量与输入变量之间存在线性关系。实现时，需注意数据预处理和特征选择。使用 scikit-learn 库进行线性回归的代码如下：

import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

# 生成示例数据
np.random.seed(0)
X = 2 * np.random.rand(100, 1)
y = 4 + 3 * X + np.random.randn(100, 1)

# 拆分数据集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 创建并训练模型
model = LinearRegression()
model.fit(X_train, y_train)

# 进行预测
y_pred = model.predict(X_test)

# 计算均方误差
mse = mean_squared_error(y_test, y_pred)
print(f"均方误差: {mse:.2f}")

该代码首先生成了一些示例数据，然后利用线性回归模型进行训练和预测，最后计算预测误差。关键在于数据的分割与模型的训练过程。

1.2 逻辑回归

逻辑回归是一种分类算法，适用于二分类问题。它通过逻辑函数将线性组合转化为概率值。以下是一个使用逻辑回归进行分类的示例：

from sklearn.datasets import load_iris
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# 加载数据
iris = load_iris()
X = iris.data
y = iris.target

# 拆分数据集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 创建并训练模型
model = LogisticRegression(max_iter=200)
model.fit(X_train, y_train)

# 进行预测
y_pred = model.predict(X_test)

# 计算准确率
accuracy = accuracy_score(y_test, y_pred)
print(f"准确率: {accuracy:.2f}")

这里通过 scikit-learn 库加载鸢尾花数据集，并应用逻辑回归模型进行训练和测试，准确率是评估模型性能的重要指标。

2. 📊 分类算法

2.1 K近邻

K近邻（KNN）是一种简单且有效的分类算法，其基本思想是通过计算距离来确定分类。以下是K近邻的实现案例：

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import classification_report

# 加载数据
iris = load_iris()
X = iris.data
y = iris.target

# 拆分数据集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 创建并训练模型
model = KNeighborsClassifier(n_neighbors=3)
model.fit(X_train, y_train)

# 进行预测
y_pred = model.predict(X_test)

# 输出分类报告
print(classification_report(y_test, y_pred))

该示例展示了如何使用K近邻算法进行分类，分类报告提供了更全面的评估指标，包括精确率和召回率。

2.2 支持向量机（SVM）

支持向量机（SVM）是一种强大的分类算法，旨在找到最佳超平面以分离不同类别。以下是SVM的实现示例：

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score

# 加载数据
iris = load_iris()
X = iris.data
y = iris.target

# 拆分数据集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 创建并训练模型
model = SVC(kernel='linear')
model.fit(X_train, y_train)

# 进行预测
y_pred = model.predict(X_test)

# 计算准确率
accuracy = accuracy_score(y_test, y_pred)
print(f"准确率: {accuracy:.2f}")

该代码通过SVM模型进行分类，使用线性核函数来进行数据拟合，最终评估模型的准确性。

2.3 决策树与随机森林

决策树是一种易于解释的分类算法，而随机森林则是多棵决策树的集成，能有效降低过拟合风险。以下是随机森林的实现示例：

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score

# 加载数据
iris = load_iris()
X = iris.data
y = iris.target

# 拆分数据集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 创建并训练模型
model = RandomForestClassifier(n_estimators=100)
model.fit(X_train, y_train)

# 进行预测
y_pred = model.predict(X_test)

# 计算准确率
accuracy = accuracy_score(y_test, y_pred)
print(f"准确率: {accuracy:.2f}")

该示例使用随机森林进行分类，通过多棵树的投票机制提高预测的稳健性，并有效降低过拟合。

3. 🔍 聚类算法

3.1 K均值与层次聚类

K均值是一种常用的聚类算法，旨在将数据分为K个簇。层次聚类则提供了不同层次的聚类结果。以下是K均值的实现示例：

from sklearn.datasets import make_blobs
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt

# 生成示例数据
X, y_true = make_blobs(n_samples=300, centers=4, cluster_std=0.60, random_state=0)

# 创建K均值模型
kmeans = KMeans(n_clusters=4)
y_kmeans = kmeans.fit_predict(X)

# 可视化结果
plt.scatter(X[:, 0], X[:, 1], c=y_kmeans, s=50, cmap='viridis')
centers = kmeans.cluster_centers_
plt.scatter(centers[:, 0], centers[:, 1], c='red', s=200, alpha=0.75)
plt.show()

在此示例中，首先生成随机数据，并使用K均值算法进行聚类，最后通过可视化展示聚类效果。

3.2 DBSCAN

DBSCAN是一种基于密度的聚类算法，适用于发现形状不规则的簇。以下是DBSCAN的实现示例：

from sklearn.datasets import make_moons
from sklearn.cluster import DBSCAN
import matplotlib.pyplot as plt

# 生成示例数据
X, _ = make_moons(n_samples=300, noise=0.1)

# 创建DBSCAN模型
dbscan = DBSCAN(eps=0.2, min_samples=5)
y_dbscan = dbscan.fit_predict(X)

# 可视化结果
plt.scatter(X[:, 0], X[:, 1], c=y_dbscan, s=50, cmap='viridis')
plt.title('DBSCAN Clustering')
plt.show()

此示例通过DBSCAN进行聚类，能够有效发现不规则形状的聚类结构。

4. 🤖 集成学习

4.1 随机森林

随机森林是集成学习的一种形式，通过组合多棵决策树提高预测性能。以下是随机森林的应用示例：

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score

# 加载数据
iris = load_iris()
X = iris.data
y = iris.target

#

 拆分数据集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 创建并训练模型
model = RandomForestClassifier(n_estimators=100)
model.fit(X_train, y_train)

# 进行预测
y_pred = model.predict(X_test)

# 计算准确率
accuracy = accuracy_score(y_test, y_pred)
print(f"准确率: {accuracy:.2f}")

在此示例中，使用随机森林进行分类，显示其在多棵决策树集成后的高效性和准确率。

4.2 梯度提升机（XGBoost与LightGBM）

XGBoost和LightGBM是两种高效的梯度提升框架，广泛应用于机器学习竞赛和实际应用中。以下是XGBoost的实现示例：

import xgboost as xgb
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# 加载数据
iris = load_iris()
X = iris.data
y = iris.target

# 拆分数据集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 创建DMatrix
dtrain = xgb.DMatrix(X_train, label=y_train)
dtest = xgb.DMatrix(X_test)

# 设置参数
params = {
    'objective': 'multi:softmax',
    'num_class': 3,
    'eta': 0.1,
    'max_depth': 3
}

# 训练模型
bst = xgb.train(params, dtrain, num_boost_round=10)

# 进行预测
y_pred = bst.predict(dtest)

# 计算准确率
accuracy = accuracy_score(y_test, y_pred)
print(f"准确率: {accuracy:.2f}")

该示例展示了如何使用XGBoost进行多分类任务，充分展现了其高效性和灵活性。

原文地址：https://blog.csdn.net/weixin_52392194/article/details/142688444

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：虚拟机 VMware 安装 macOS
下一篇：pdf处理1

Visual Studio 是一款非常强大的开发环境，提供了许多快捷键来提高开发效率。
Visual Studio 是一款非常强大的开发环境，提供了许多快捷键来提高开发效率。这些快捷键可以帮助您在使用 Visual Studio 时更加高效。
阅读更多2024-10-04
看门狗电路设计
那么电源的上电时间，一般是几百个微秒到几个毫秒之间，所以说200个毫秒的时间就可以保证我的其他持续的电源也都完成上电，进入这种正常工作的状态。硬件看门狗芯片，Watch DogTimer，可用于受到电
阅读更多2024-10-04
轻松提高物流查询效率：快递单号批量查询物流派件中的
幸运的是，有一款软件能够一次性批量查询大量快递单号，无需逐个输入，大大节省了时间和精力。这里为大家分享一款批量查询软件，一键分析筛选出正在派件中的单号。轻松几个步骤就可查询出这么多的单号物流，而且分析
阅读更多2024-10-04
【pytorch】pytorch入门5：最大池化层（Pooling layers ）
使用 B站小土堆课程池化（Pooling）是深度学习中常用的一种操作，用于降低卷积神经网络（CNN）或循环神经网络（RNN）中的特征图的维度。池化操作的基本思想是将特征图划分为若干个子区域，然后对每个
阅读更多2024-10-04
C++中的类型推导：auto 和 decltype 介绍
auto关键字不会保留const等特性，decltype会保留。auto需要在变量声明的时候就初始化，decltype不需要在初始化的时候就进行初始化。decltype需要根据已有表达式、已有变量推导
阅读更多2024-10-04
跨平台音乐播放器Feishin
Feishin 是一个现代的自托管音乐播放器。其支持任何实现 Navidrome 或 Jellyfin API 的音乐服务器。
阅读更多2024-10-04
Python、C++、java阶乘算法
阶乘是数学中的一个概念，通常定义为从1乘到指定的数。具体来说，一个正整数的阶乘（记作n!例如，5的阶乘（记作5!此外，阶乘函数还可以通过递归的方式定义，即n!阶乘在数学中有广泛的应用，特别是在排列组合
阅读更多2024-10-04
netty之Netty心跳服务与断线重连
使用netty中，需要监测服务是否稳定以及在网络异常链接断开时候可以自动重连。需要实现监听；代码目录结构@OverrideSystem.out.println("client start d
阅读更多2024-10-04
【数据结构】栈、队列和数组
50。
阅读更多2024-10-04
栏目一：使用echarts绘制简单图形
Echarts是一款基于JavaScript的可视化图表库。它提供了丰富的图表类型和交互功能，可以用于在网页中展示各种数据。Echarts支持多种数据格式的转换和操作，可以轻松地将数据转换为图表所需的
阅读更多2024-10-04

Python 机器学习核心算法实践案例