计算机学习实战

🕗 发布于 2024-10-09 13:50 机器学习

在当今数据驱动的世界中，计算机学习（或称为机器学习）已成为各行业的一项重要技能。计算机学习结合了统计学、计算机科学和数据分析的技术，旨在让计算机能够通过数据来学习并做出决策。本指南将介绍计算机学习的基本概念、工具、方法，以及如何通过实际操作案例进行学习和实践，提高读者的兴趣。

1. 什么是计算机学习？

计算机学习是一种使计算机从数据中学习并进行预测的技术，通常不需要显式编写规则和逻辑。它包括若干子领域，如监督学习、无监督学习和强化学习。

1.1 监督学习与无监督学习

监督学习：算法从带有标签（标签即结果）的数据中学习，通常用于分类和回归任务。例如，给定一组特征（如房屋面积、卧室数量），预测房价。
无监督学习：从没有标签的数据中学习，通常用于聚类和降维任务。例如，根据用户行为对用户进行分组，而不需要先验标签。

1.2 常见算法

线性回归：用于回归任务，通过拟合一条直线来预测连续值。
决策树：一种基于特征划分的分类或回归模型。
支持向量机（SVM）：用于分类的算法，通过在特征空间中找到最佳边界。
K均值聚类：一种无监督学习算法，用于将数据集划分成K个聚类。

2. 环境准备

在实际操作计算机学习之前，需要安装和配置所需的环境。

2.1 Python 与包管理工具

计算机学习中，Python 是最流行的编程语言之一。确保你已经安装了 Python 和 pip（Python 的包管理工具）。

下载地址： Python官网

2.2 安装必要库

在命令行中，使用以下命令安装必备的计算机学习库：

pip install numpy pandas scikit-learn matplotlib seaborn jupyter

NumPy：提供支持数组和矩阵运算的功能。
Pandas：用于数据处理和分析的库。
Scikit-learn：一个强大的机器学习库，包含许多常用算法。
Matplotlib 和 Seaborn：用于数据可视化。
Jupyter：交互式笔记本，方便进行实验和可视化。

3. 实际操作案例：房价预测

本节将通过一个监督学习的实例，演示如何使用 Python 和 Scikit-learn 来预测房价。

3.1 数据集准备

我们将使用著名的波士顿房价数据集。这个数据集包含了波士顿地区的房屋特征及其对应的价格。使用 Scikit-learn 下载这个数据集：

from sklearn.datasets import load_boston
import pandas as pd

# 加载波士顿房价数据集
boston = load_boston()
df = pd.DataFrame(boston.data, columns=boston.feature_names)
df['PRICE'] = boston.target

# 显示数据集的前五行
print(df.head())

3.2 数据探索

在建模之前，首先要对数据集进行探索性分析，以了解数据的分布和特点。

import seaborn as sns
import matplotlib.pyplot as plt

# 查看价格分布
sns.histplot(df['PRICE'], bins=30, kde=True)
plt.title('房价分布')
plt.xlabel('价格')
plt.ylabel('频数')
plt.show()

# 观察特征之间的关系
sns.pairplot(df, x_vars=boston.feature_names, y_vars='PRICE', height=2.5)
plt.show()

3.3 数据预处理

数据预处理步骤包括划分训练集和测试集、特征缩放等。

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

# 划分训练集和测试集
X = df.drop('PRICE', axis=1)
y = df['PRICE']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 特征缩放
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

3.4 模型训练

我们将使用随机森林回归模型来预测房价。

from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, r2_score

# 创建并训练模型
model = RandomForestRegressor(n_estimators=100, random_state=42)
model.fit(X_train, y_train)

# 进行预测
y_pred = model.predict(X_test)

# 评估模型
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)
print(f"均方误差: {mse:.2f}")
print(f"决定系数 R²: {r2:.2f}")

3.5 结果可视化

将预测结果与真实值进行比较，观察模型表现。

plt.scatter(y_test, y_pred)
plt.xlabel('真实房价')
plt.ylabel('预测房价')
plt.title('真实值与预测值比较')
plt.plot([min(y_test), max(y_test)], [min(y_test), max(y_test)], color='red')  # 45度线
plt.show()

4. 进阶应用：分类任务

接下来，我们通过一个分类任务示例，介绍数据分类的基本操作。

4.1 使用鸢尾花数据集

鸢尾花数据集是一个常用的分类数据集，包含120个样本的花瓣和萼片的特征。

from sklearn.datasets import load_iris

# 加载鸢尾花数据集
iris = load_iris()
iris_df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
iris_df['species'] = iris.target
print(iris_df.head())

4.2 数据探索与可视化

同样，我们要给数据进行探索与可视化。

sns.pairplot(iris_df, hue='species')
plt.show()

4.3 划分数据集与模型训练

划分数据集，并选择 KNN 算法进行分类。

from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier

# 划分数据
X = iris_df.drop('species', axis=1)
y = iris_df['species']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 创建并训练 KNN 模型
knn = KNeighborsClassifier(n_neighbors=3)
knn.fit(X_train, y_train)

# 预测并评估模型
y_pred = knn.predict(X_test)
accuracy = knn.score(X_test, y_test)
print(f"KNN 模型的准确率: {accuracy:.2f}")

4.4 混淆矩阵

构建混淆矩阵以观察分类效果。

from sklearn.metrics import confusion_matrix, ConfusionMatrixDisplay

cm = confusion_matrix(y_test, y_pred)
ConfusionMatrixDisplay(cm, display_labels=iris.target_names).plot()
plt.title('混淆矩阵')
plt.show()

5. 深入了解模型调优

在机器学习中，模型调优是一个关键步骤，可以帮助提升模型性能。我们将在本节简单介绍如何使用网格搜索（Grid Search）进行超参数调优。

5.1 超参数调优

设定参数空间，并使用 GridSearchCV 来寻找最佳参数。

from sklearn.model_selection import GridSearchCV

# 定义参数空间
param_grid = {
    'n_neighbors': [3, 5, 7, 9],
    'weights': ['uniform', 'distance']
}

grid_search = GridSearchCV(KNeighborsClassifier(), param_grid, cv=5)
grid_search.fit(X_train, y_train)

# 获取最佳参数
print(f"最佳参数: {grid_search.best_params_}")
print(f"最佳准确率: {grid_search.best_score_:.2f}")

6. 常见问题及解决方案

在学习计算机学习过程中，可能会遇到各种问题，以下列出一些常见的问题及其解决方案。

6.1 数据不平衡

在分类问题中，可能会遇到类不平衡的问题。可以使用下采样、上采样或使用不同的评估指标如 F1 得分来处理。

6.2 过拟合和欠拟合

过拟合：模型在训练数据上表现很好，但在测试数据上表现不佳。可以通过降低模型复杂度、增加训练数据、使用正则化等技术缓解。
欠拟合：模型在训练数据上也表现不佳。可以考虑使用更复杂的模型或添加更多特征。

通过本指南，我们从基础知识到实际案例演示，全面介绍了计算机学习的过程。如今，计算机学习的应用遍布各个行业，不论是金融、医疗，还是互联网公司，都在利用这一技术进行数据驱动决策。

学习计算机学习既要理解理论，也需多加实践，只有在不断的实验中，才能深化对算法的理解，提升解决问题的能力。希望本指南能为你提供一个良好的起点，激发你深入研究和探索的兴趣。未来，随着技术的发展，计算机学习将带来更多的创新和变革，期待你能在这条道路上走得更远！

原文地址：https://blog.csdn.net/vvvae1234/article/details/142765382

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：python 实现匹配最小顶点覆盖算法
下一篇：Linux 基本系统命令及其使用详解手册（九）

从零开始学习Vue3
Vue中的CompositionAPI：Compositon API的产生背景、setup函数的使用及参数、响应式引用语法、计算属性和侦听器的写法、案例开发帮你理解新语法。Vue高级扩展语法：Mixi
阅读更多2024-10-09
为什么SEO需要长期投入而非一次性操作？
许多企业在进行SEO时，常常抱有一种“一劳永逸”的心态，认为只需一次性投入就能长期获得排名和流量。然而这是不可能的，SEO并不是一次性操作，它并没有那么简单，它需要长期的、持续的投入才能见效，如果大家
阅读更多2024-10-09
nginx常用功能，网站、反向代理、四层代理、优化方法、python动态页面解析。
nginx的常用功能：一网站功能nginx配置文件的语法：指令参数分号结尾1. 用户认证2. 基于端口的虚拟主机http{server {# 监听端口号# 虚拟主机域名root html_a #
阅读更多2024-10-09
PCL 计算3DSC并可视化
3D形状上下文(3D Shape Context, 3DSC)是三维点云描述子的一种，它通过将一个点的局部邻域信息映射到球坐标系，并将空间区域划分为多个区域来描述点的局部几何结构。通过计算每个区域内的
阅读更多2024-10-09
SpringBoot统一功能处理
一篇文章带你入门SpringBoot的拦截器与拦截器底层的适配器设计模式，介绍了统一数据返回的优点以及会出现的使用String作为返回类型出现的参数不匹配问题。
阅读更多2024-10-09
nginx主配置文件
这个配置文件定义了Nginx的基本设置，包括工作进程数、错误日志、事件处理模型、HTTP模块的基本配置以及虚拟主机配置文件的包含路径。通过这些配置，Nginx可以有效地处理各种HTTP请求，并支持多个
阅读更多2024-10-09
LADRC线性扩张状态观测器LESO(Simulink仿真+SCL源代码)
ADRC自抗扰控制从Simulink仿真到PLC控制实现_自抗扰控制器 simulink仿真-CSDN博客本文介绍了如何将ADRC自抗扰控制算法从Simulink仿真应用到PLC控制中，包括Simul
阅读更多2024-10-09
《Oracle DB备份与恢复》开篇：一切从Oracle Incarnation开始
本节将介绍一些平时很少（或者较少）被提及的一个Oracle知识点-Oracle Incarnation。深入理解Oracle Incarnation有助于我们做好备份恢复规划并执行清晰的恢复。
阅读更多2024-10-09
uni-app 开发的应用快速构建成鸿蒙原生应用
uni-app 是一个使用 Vue.js 开发所有前端应用的框架，它支持编译到 iOS、Android、小程序等多个平台。对于 HarmonyOS（鸿蒙系统），uni-app 提供了特定的支持，允许开
阅读更多2024-10-09
python基础语法全解（两万字讲解，建议收藏）
python基础语法全解！
阅读更多2024-10-09