【自学笔记】无监督学习

🕗 发布于 2024-11-19 02:25 笔记学习无监督学习

文章目录

简述
聚类（Cluster learning）
- K-means
异常检测
- 密度估计
- 一些技巧

简述

无监督学习（Unsupervised Learning）是机器学习的一种方法，其特点是不依赖于事先标记的训练数据。在无监督学习中，算法尝试直接从数据中学习模式或结构，而不需要任何预先定义的输出标签。这种方法的主要目的是发现数据的内在结构、模式或特征，通常用于数据分析、数据挖掘和探索性研究。
无监督学习的主要应用场景和方法包括：
（1）聚类（Clustering）：将数据集中的对象按照某种相似性标准分成不同的组或簇。常见的聚类算法包括 K-means 聚类、层次聚类（Hierarchical Clustering）和 DBSCAN（Density-Based Spatial Clustering of Applications with Noise）
（2）降维（Dimensionality Reduction）：减少数据集的特征数量，同时保留数据的主要信息。这有助于数据可视化和提高模型的计算效率。常见的降维算法包括主成分分析（Principal Component Analysis, PCA）、线性判别分析（Linear Discriminant Analysis, LDA）和 t-分布随机邻域嵌入（t-SNE）
（3）关联规则学习（Association Rule Learning）：发现数据集中项之间的关系或模式。常见的算法包括 Apriori 算法和 Eclat 算法。
（4）密度估计（Density Estimation）：估计数据的概率分布。常见的方法包括高斯混合模型（Gaussian Mixture Models, GMM）和核密度估计（Kernel Density Estimation, KDE）。
（x）应用：市场细分、异常检测、推荐系统、自然语言处理和图像分割等

聚类（Cluster learning）

聚类算法是一种无监督学习方法，用于将数据集中的数据点分组为若干个簇（clusters），使得同一簇内的数据点彼此相似，而不同簇之间的数据点相异。

K-means

最近学代数分析学魔怔了，实战一下：
（0）假设每个样本点 $X^{(i)} \in V =V_{1} \times V_{2} \times ... \times V_{n}$ ， $\in I =\left \{ 1, 2, ..., m \right \}$
（1）随机挑选 $k$ 个点 $Y^{(j)} \in V$ ， $\in J = \left \{ 1, 2, ..., k \right \}$ 作为虚拟簇中心
（2）为每个样本点作标记，标记为最近的簇中心，假设 $V$ 上的度量为 $d$ ：

$\to J, X \mapsto min\left \{i \in J|\forall j \in J, d(X，Y^{(i)}) \le d(X，Y^{(j)}) \right \}$
这里用 $min$ 避免了可能存在多个满足的最近簇中心，用随机选取的方式也是可以的。

（3）我们将标记相同的样本点构成的集合称为簇

$\in J, \ C^{(j)} := \left \{X \in \left \{X^{(1)},...,X^{(n)} \right \} | L(X) = j \right \}$

（4）定义点到簇的度量为：

$\left\{\begin{matrix} \frac{1}{|C|}\sum_{X \in C} d(X, Y) & if \ C \ne \phi; \\ +\infty & if \ C = \phi \end{matrix}\right.$
这里 $|C|<+\infty$ 表示 $C$ 中元素数量

（5）将虚拟簇中心更新为当前簇的实际中心，簇在度量 $d$ 下的实际中心为：

$Y^{(j)'} \in V$ ，满足 $\forall Y \in V$ , $D(Y^{(j)'}, C^{(j)}) \le D(Y, C^{(j)})$
可能存在多个满足的点，我们随机取一个即可。

（6）由于虚拟簇中心变化，每个样本点标记可能也发生了变化，回到步骤（2），直至没有样本点的标记发生变化。

（7）最终，所有样本点被分成了 $K$ 个簇，实现了聚类。
（8）总距离可以作为评估模型的损失函数，定义为：

$\sum_{i=1}^{k} D(Y^{(i)}, C^{(i)})$

此外还有一些可以选择的细节：
（1）初始的虚拟簇中心可以直接在样本点中随机挑选，而不是在整个空间中随机。
（2）停止条件可以放宽，如当 $J$ 下降幅度小于某个临界时就停止，来减少训练成本
（3）多次运行K-mean可能会得到不一样的结果，我们可以选择其中分布较均匀的一次，或者 $J$ 最小的一次
（4）肘部法则（Elbow Method）：选择合适的聚类个数 $k$ ，我们可以绘制 $J - k$ 图像，然后选择图像开始显著变平的端点

异常检测

异常检测算法是一种用于识别数据集中不符合预期模式或行为的观测值或事件的技术。

密度估计

密度估计（Density Estimation）是统计学和机器学习中的一种技术，用于从数据集中估计未知的概率密度函数。给定一个界限 $0\le\epsilon\le1$ ，如果某数据点出现的概率 $\epsilon$ ，那么认为它是异常数据。
假设数据理论呈高斯分布，我们用已有数据去拟合出高斯曲线：

样本集 $X = (x^{(i)})_{i=1}^{n}$ ，样本点 $x^{(i)} = (x^{(i)}_{j})_{j=1}^{m}$
对于特征 $j$ ， $\mu_{j} = \frac{1}{n}\sum_{i=1}^{n}x^{(i)}_{j}$ ， $\sigma_{j}=\frac{1}{n}\sum_{i=1}^{n}(x_{j}^{(i)}-\mu_{j})^{2}$
高斯分布为： $P(x_{j};\mu_{j},\sigma_{j}^{2})=\frac{1}{\sqrt{2\pi \sigma_{j}^{2}}}e^{-\frac{(x_{j}-\mu_{j})^{2}}{2\sigma_{j}^{2}}}$
样本点 $x^{(i)}$ 出现概率为： $P(x^{(i)}) = \prod_{j=1}^{m}P(x_{j}^{(i)};\mu_{j},\sigma_{j}^{2})$ $(*)$

细心的朋友可能发现了一个问题，式子 $(*)$ 必须要在特征之间完全独立的情况下才能满足。对于不完全独立的情况，我们可以引入协方差矩阵来解决，这种优化后的分布被称为多元高斯分布：

协方差矩阵 $\sum$ 是一个 $\times m$ 的矩阵：

其中， $\sum_{ij}$ 表示特征 $i$ 和特征 $j$ 之间的协方差， $\sum_{ii}=\sigma_{i}^{2}$

均值向量 $\mu$ 是一个 $m$ 维向量：

则多维高斯分布概率密度曲线为： $P(x;\mu,\sum)=\frac{1}{(2\pi)^{m/2}|\sum|^{1/2}}e^{-\frac{1}{2}(x-\mu)^{T}\sum^{-1}(x-\mu)}$

一些技巧

（1）我们可以对数据进行转化（如取对数，取幂次等），来让特征更接近高斯分布（more gaussian）
（2）我们可以通过已有的特征来创建新特征（如相加，取比值等），来检测多特征的异常。

原文地址：https://blog.csdn.net/qq_40432278/article/details/143747584

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：ubuntu 安装 docker
下一篇：岁月沉淀：梳理多年积累的笔记精华

鸿蒙进阶篇-TextInput&TextArea和Checkbox
在鸿蒙开发中，TextInput 用于单行文本输入，TextArea 用于多行文本输入，Checkbox 则是用于多项选择的复选框组件。
阅读更多2024-11-21
MySQL45讲第二十六讲备库为什么会延迟好几个小时？——阅读总结
在MySQL数据库的主备架构中，备库延迟是一个需要重点关注的问题。它可能影响系统的可用性和数据的一致性，尤其是在主库压力较大时，备库延迟可能达到数小时甚至永远无法追上主库。今天，我们将深入探讨MySQ
阅读更多2024-11-21
快速简单的视频下载器——lux
在学习之余，发现了一个简单并且高效的视频下载器lux,能够帮你快速且高效的下载文件（不仅仅是视频可以），所以写了一篇博客分享lux的相关内容这个简单并且高效的视频下载器lux，一定会提高你的下载效率的
阅读更多2024-11-21
XGBOOST、LightGBM、CATBoost
本文介绍了三种 GBDT 的优化算法，可以根据实际情况进行选择。
阅读更多2024-11-21
【JAVA】Java基础—面向对象编程：常用API与数据结构—字符串、数组的使用
在Java编程中，字符串和数组是两个非常基础且重要的数据结构。它们在日常开发中无处不在，理解它们的使用及其背后的理论知识是成为一名合格Java开发者的必经之路。：可以将字符串比作一本书的章节。每个章节
阅读更多2024-11-21
Docker-Compose 快速部署安装 Nginx 或其他应用
测试部署的 Nginx 是否运行正常，可以在浏览器中访问 Nginx 所在的 IP 或端口，确保能够看到默认的 Nginx 页面。（如果你安装的是 Docker CE）。将下载的 Docker-Com
阅读更多2024-11-21
微信小程序申请getlocation权限
2、如果小程序没有导航功能。可以使用wx.openLocation写一个导航页面功能，以便进行权限申请。所以需要申请getlocation权限的开启。体验版没有申请开启不影响使用，但是上线提审必须申请
阅读更多2024-11-21
(RK3566驱动开发 - 2）.IIC驱动
【代码】(RK3566驱动开发 - 2）.IIC驱动。
阅读更多2024-11-21
04 搭建linux驱动开发环境
虽然 petalinux 功能很全面，但是其编译速度较慢，不适用于驱动调试阶段（因为驱动调试阶段会频繁修改驱动模块、内核、设备树等），因此本章将采用分步编译的方式来编译启动开发板所需要的各种镜像文件，
阅读更多2024-11-21
2025蓝桥杯（单片机）备赛--扩展外设之NE555的使用及定时器1的详细讲解（十）
超详细的定时器555讲解
阅读更多2024-11-21