【机器学习】机器学习的基本分类-无监督学习（Unsupervised Learning）

🕗 发布于 2024-12-07 07:27 机器学习 分类学习 人工智能 算法

无监督学习（Unsupervised Learning）

无监督学习是一种机器学习方法，主要用于没有标签的数据集。其目标是从数据中挖掘出潜在的结构和模式。常见的无监督学习任务包括聚类、降维、密度估计 和 异常检测。

1. 无监督学习的核心目标

1.1 聚类

将数据分成多个组，使得同一组中的数据点具有更高的相似性，而不同组之间的相似性较低。

应用场景：

市场细分：将用户分组，提供个性化服务。
图像分割：将像素划分为不同区域。

1.2 降维

通过减少特征的数量而保留尽可能多的信息，主要用于数据可视化或特征提取。

应用场景：

数据压缩：如主成分分析 (PCA)。
数据可视化：将高维数据映射到 2D 或 3D 空间。

1.3 密度估计

估计数据的概率分布，用于理解数据生成过程。

应用场景：

图像生成：生成新的、类似于训练数据的图像。
异常检测：检测数据集中低概率的异常点。

2. 主要算法

2.1 聚类算法

(1) K-Means

K-Means 是最常用的聚类算法，通过迭代优化，将数据分为 K 个簇。

核心步骤：

初始化 K 个簇中心。
分配每个点到最近的簇中心。
更新簇中心为当前簇内点的均值。
重复步骤 2 和 3，直到收敛。

优缺点：

优点：简单高效，适合大数据集。
缺点：对初始中心敏感，适用于凸形分布。

from sklearn.cluster import KMeans
import numpy as np

# 生成数据
from sklearn.datasets import make_blobs
X, _ = make_blobs(n_samples=300, centers=4, random_state=42)

# K-Means 聚类
kmeans = KMeans(n_clusters=4, random_state=42)
kmeans.fit(X)
labels = kmeans.labels_

(2) DBSCAN

基于密度的聚类方法，能够发现任意形状的簇，同时可以自动识别噪声点。

核心思想：

定义每个点的邻域（基于半径 ϵ）。
寻找核心点（邻域内有足够多点的点）。
扩展核心点形成簇。

优缺点：

优点：对噪声鲁棒，适合非球形数据。
缺点：对参数 ϵ 和最小样本数敏感。

from sklearn.cluster import DBSCAN

# DBSCAN 聚类
dbscan = DBSCAN(eps=0.5, min_samples=5)
dbscan.fit(X)
labels = dbscan.labels_

2.2 降维算法

(1) 主成分分析（PCA）

通过线性变换，将数据投影到低维空间，同时尽可能保留数据的方差。

核心步骤：

计算数据的协方差矩阵。
对协方差矩阵进行特征值分解。
选择最大的 k 个特征值对应的特征向量。

from sklearn.decomposition import PCA

# PCA 降维
pca = PCA(n_components=2)
X_reduced = pca.fit_transform(X)

(2) t-SNE

t-SNE 是一种非线性降维技术，特别适合高维数据的可视化。

核心思想：

在高维空间和低维空间中分别计算数据点对之间的相似性。
通过梯度下降优化，使高维和低维空间中的相似性尽可能一致。

from sklearn.manifold import TSNE

# t-SNE 降维
tsne = TSNE(n_components=2, random_state=42)
X_embedded = tsne.fit_transform(X)

2.3 密度估计

(1) 高斯混合模型（GMM）

通过混合多个高斯分布来对数据建模。每个高斯分布对应一个簇，同时计算数据属于每个簇的概率。

核心步骤：

初始化每个高斯分布的参数。
E 步：计算每个点属于每个分布的概率。
M 步：更新高斯分布的参数。

from sklearn.mixture import GaussianMixture

# GMM 聚类
gmm = GaussianMixture(n_components=4, random_state=42)
gmm.fit(X)
labels = gmm.predict(X)

(2) 核密度估计（KDE）

通过核函数（如高斯核）对数据的概率密度进行估计，适合发现数据分布中的细节。

from sklearn.neighbors import KernelDensity

# KDE 密度估计
kde = KernelDensity(kernel='gaussian', bandwidth=0.5)
kde.fit(X)

3. 无监督学习的应用

3.1 聚类

客户分群：细分客户群体，制定针对性策略。
推荐系统：基于用户行为聚类推荐内容。

3.2 降维

数据可视化：如高维基因数据的分析。
特征选择：减少模型复杂度，提高训练速度。

3.3 密度估计

异常检测：检测异常交易或异常行为。
数据生成：生成新的、与训练数据相似的样本。

4. 无监督学习的挑战

难以评估：没有标签，难以量化结果的优劣。
算法敏感性：如 K-Means 对初始中心敏感，DBSCAN 对参数敏感。
高维数据问题：维度的增加可能导致距离度量失效（“维度灾难”）。

无监督学习方法强大而灵活，但通常需要结合特定的领域知识以更好地解释结果。如果需要更深入的分析或实践指导，可以进一步探讨！

原文地址：https://blog.csdn.net/IT_ORACLE/article/details/144281930

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：行为型-责任链模式（Chain of Responsibility Pattern）
下一篇：链式设计-------责任链模式和装饰模式

uni-app开发收货地址管理
收货地址在个人中心的我的地址里面，点击我的地址可以查看我的收货地址列表，可以新增收货地址，点击特定收货地址可以编辑和删除该地址信息。// 加载loding。
阅读更多2024-12-27
hive的存储格式
hive5种存储格式的区别
阅读更多2024-12-27
基于 MATLAB 的图像增强技术分享
MATLAB 的图像处理工具箱提供了大量用于图像增强和处理的函数，如imread用于读取图像，imwrite用于保存图像，rgb2gray用于将彩色图像转换为灰度图像，imhist用于计算图像的直方图
阅读更多2024-12-27
taiwindcss
注意：一定通过px tailwindcss init方式创建。6.问题，如果这几个步骤发现没有实现，删除包以后重新试一下。5.因为tailwindcss是依赖于postcss。创建postcss.co
阅读更多2024-12-27
“Gold-YOLO：基于聚合与分发机制的高效目标检测新范式”
Gold-YOLO是一种新型高效的目标检测模型，它通过引入聚合和分发机制显著提升了多尺度特征融合的能力。Gold-YOLO通过其创新的GD机制，在目标检测领域实现了最佳性能，尤其是在处理多尺度物体时。
阅读更多2024-12-27
典型常见的基于知识蒸馏的目标检测方法总结一
使用feature propagation layer [29]将voxel特征转换为point feature。
阅读更多2024-12-27
CSS系列（37）-- Overscroll Behavior详解
CSS之旅第三十七站
阅读更多2024-12-27
最短路径C++，Dijkstra
第一行为有向图中点的数量n（各点从0到n-1编号）第二行为边的数量m第三行为要求其间最短路径的两个点第四行起为m条边的信息，包括起点、终点和路径长度（保证长度是整数，且绝对值不大于100），以空格隔开
阅读更多2024-12-27
题海拾贝：蓝桥杯 2020 省AB 乘法表
输出P进制下的乘法表。P 进制中大于等于 10 的数字用大写字母 A、8、C、.·表示。九九乘法表是学习乘法时必须要掌握的。在不同进制数下，需要不同的乘法表。给定 P，请输出P 进制下的乘法表。
阅读更多2024-12-27
力扣-数据结构-3【算法学习day.74】
##我做这类文章一个重要的目的还是给正在学习的大家提供方向（例如想要掌握基础用法，该刷哪些题？建议灵神的题单和代码随想录）和记录自己的学习过程，我的解析也不会做的非常详细，只会提供思路和一些关键点，力
阅读更多2024-12-27

【机器学习】机器学习的基本分类-无监督学习（Unsupervised Learning）

无监督学习（Unsupervised Learning）

1. 无监督学习的核心目标

1.1 聚类

1.2 降维

1.3 密度估计

2. 主要算法

2.1 聚类算法

(1) K-Means

(2) DBSCAN

2.2 降维算法

(1) 主成分分析（PCA）

(2) t-SNE

2.3 密度估计

(1) 高斯混合模型（GMM）

(2) 核密度估计（KDE）

3. 无监督学习的应用

3.1 聚类

3.2 降维

3.3 密度估计

4. 无监督学习的挑战

相关文章