【机器学习】机器学习的基本分类-监督学习（Supervised Learning）

🕗 发布于 2024-11-28 16:31 机器学习 分类学习 人工智能

监督学习是一种通过已有的输入数据（特征）和目标输出（标签）对模型进行训练的机器学习方法，旨在学到一个函数，将输入映射到正确的输出。

1. 监督学习概述

监督学习需要：

输入数据（特征）：X，如图片、文本、数值等。
输出标签：y，即目标值，如图片的分类标签、房价等。
目标：通过训练模型，使其能够预测新数据的标签。

公式表示：
从训练数据 (X, y) 中学到一个函数 f(x)，使得对于新输入 x'，预测值 f(x') 与真实值 y' 尽可能接近。

2. 常见任务类型

分类任务

目标：预测离散类别标签。

示例：垃圾邮件检测（垃圾邮件/非垃圾邮件）、图片分类（猫/狗/鸟）。
常见评价指标：准确率（Accuracy）、精确率（Precision）、召回率（Recall）、F1 分数等。

回归任务

目标：预测连续值。

示例：房价预测、气温预测。
常见评价指标：均方误差（MSE）、平均绝对误差（MAE）、决定系数（R²）等。

3. 数据准备与预处理

3.1 数据收集

数据来源：数据库、日志文件、公开数据集（如 Kaggle）。
注意：确保数据多样性和质量。

3.2 数据清洗

处理缺失值：均值填充、中位数填充或删除缺失数据。
处理异常值：通过箱线图、标准差等方法检测并处理。

3.3 特征工程

标准化/归一化：对数值型特征进行标准化，使其均值为 0，标准差为 1。
编码：对类别型特征用独热编码（One-Hot Encoding）或标签编码（Label Encoding）。
特征选择：删除低相关性或多余的特征，提高模型性能。

3.4 数据划分

划分为训练集、验证集和测试集（例如 60%/20%/20%）。

4. 模型训练与评估

4.1 模型选择

根据任务选择合适的算法，如：

分类：逻辑回归、支持向量机（SVM）、决策树、随机森林等。
回归：线性回归、岭回归、Lasso 回归、梯度提升树（GBDT）等。

4.2 训练模型

通过优化损失函数（如均方误差、交叉熵）调整模型参数。

4.3 模型评估

在验证集上评估性能，通过超参数调优（如学习率、正则化强度）优化模型。
避免过拟合：使用正则化（L1/L2）、Dropout 或限制树深度等手段。

5. 常见算法及实现

以下是分类与回归常用算法的 Python 实现：

5.1 分类算法

逻辑回归（Logistic Regression）

from sklearn.linear_model import LogisticRegression
model = LogisticRegression()
model.fit(X_train, y_train)
y_pred = model.predict(X_test)

支持向量机（SVM）

from sklearn.svm import SVC
model = SVC(kernel='linear')
model.fit(X_train, y_train)
y_pred = model.predict(X_test)

5.2 回归算法

线性回归

from sklearn.linear_model import LinearRegression
model = LinearRegression()
model.fit(X_train, y_train)
y_pred = model.predict(X_test)

梯度提升树（GBDT）

from sklearn.ensemble import GradientBoostingRegressor
model = GradientBoostingRegressor()
model.fit(X_train, y_train)
y_pred = model.predict(X_test)

6. 案例分析

案例 1：分类问题（垃圾邮件检测）

数据：下载带有邮件内容及是否垃圾的标注数据集。
特征提取：对文本数据进行向量化（如 TF-IDF）。
模型训练：使用逻辑回归模型。
评估：计算准确率、F1 分数。

案例 2：回归问题（房价预测）

数据：房屋面积、卧室数量、地理位置等特征。
预处理：标准化数值型特征，编码类别型特征。
模型训练：使用随机森林回归模型。
评估：计算 MSE 和 R²。

7. 监督学习的挑战与改进

过拟合与欠拟合
- 解决过拟合：增加数据量、使用正则化、减少模型复杂度。
- 解决欠拟合：增加特征、使用更复杂模型。
数据不平衡
- 分类问题中类别分布不均。
- 解决方法：采样技术（过采样/下采样）、使用 F1 分数评估。
噪声数据与异常值
- 影响模型性能。
- 解决方法：清洗数据、使用稳健算法。
模型解释性
- 如深度学习模型不易解释。
- 解决方法：使用可解释性工具（如 SHAP、LIME）。

8. 工具与框架

数据预处理：pandas, numpy
机器学习：scikit-learn, xgboost, lightgbm
可视化：matplotlib, seaborn

通过动手实践小项目（如图片分类或简单预测任务），可以快速理解和掌握监督学习的基本原理和应用技巧！如果有具体需求，我可以进一步提供代码和案例指导。

原文地址：https://blog.csdn.net/IT_ORACLE/article/details/144082638

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：日历使用及汉化——fullcalendar前端
下一篇：【RISC-V CPU debug 专栏 2.3 -- Run Control】

商丘网站建设从设计到执行
*测试与优化**是网站建设中不可或缺的一环。商丘，作为河南省的一个历史悠久的城市，正在经历着现代化和科技进步的洗礼。网站建设对于商丘的企业来说，不仅是展示形象的平台，更是拓展业务、提升竞争力的重要工具
阅读更多2024-11-30
web安全攻防入门教程
Web安全攻防是一个动态变化的领域，攻防技术日新月异。在学习Web安全的过程中，掌握基础的安全理论和常见的攻击类型、漏洞防御技术是最基本的要求。通过不断的学习和实践，你能够提升自己的安全攻防能力，保护
阅读更多2024-11-30
ADAM优化算法与学习率调度器：深度学习中的关键工具
ADAM算法作为深度学习优化中的重要工具，以其高效性和自适应性深受欢迎，而学习率调度器则通过动态调整学习率进一步提高了优化效果。两者的结合为解决大规模深度学习任务提供了强大支持。然而，在实际应用中，不
阅读更多2024-11-30
《向量数据库指南》——MoE应用：解锁深度学习新境界的钥匙
综上所述，MoE模型在自然语言处理、计算机视觉以及多模态学习等领域均展现出了强大的潜力和应用价值。作为大禹智库的向量数据库高级研究员和《向量数据库指南》的作者，我深信MoE模型将在未来的AI技术发展中
阅读更多2024-11-30
CSS学习记录02
本文介绍了CSS中的颜色属性。
阅读更多2024-11-30
社群赋能电商：小程序 AI 智能名片与 S2B2C 商城系统的整合与突破
本文聚焦于社群在电商领域日益凸显的关键地位，深入探讨在社群粉丝经济迅猛发展背景下，小程序 AI 智能名片与 S2B2C 商城系统如何与社群深度融合，助力电商突破传统运营局限，挖掘新增长点。通过分析社群
阅读更多2024-11-30
《数据挖掘：概念、模型、方法与算法（第三版）》
嘿，数据挖掘的小伙伴们！今天我要给你们介绍一本超级实用的书——《数据挖掘：概念、模型、方法与算法》第三版。这本书是数据挖掘领域的经典之作，由该领域的知名专家编写，系统性地介绍了在高维数据空间中分析和提
阅读更多2024-11-30
C++优选算法十六 BFS解决最短路问题
BFS能够逐层遍历图中的所有节点，直到找到目标节点或遍历完所有可达节点。对于无权图（即边权为1的图）或边权相等的图，BFS能够找到从起点到目标节点的最短路径。
阅读更多2024-11-30
云技术基础（泷羽sec）
云技术基础（泷羽sec）
阅读更多2024-11-30
计算属性和监听属性
计算属性是一种基于其依赖的数据动态计算得出的属性。当依赖的数据发生变化时，计算属性会自动重新计算。计算属性是缓存的，只有在其依赖的数据发生变化时才会重新计算，这使得计算属性比方法更加高效。监听属性用于
阅读更多2024-11-30