【机器学习】23. 聚类-GMM: Gaussian Mixture Model

🕗 发布于 2024-11-06 09:08 机器学习 人工智能 算法数据挖掘 深度学习

1. 定义和假设

定义：probabilistic clustering（model-base）
假设：数据服从正态分布
在这里插入图片描述

2. 算法内容

我们假设数据是由k个高斯（正态）分布混合生成的。每个分布有2个参数：μ和σ。
一个分布对应一个集群
从u和o的随机初始值开始
在每次估计后，我们计算每个例子属于每个分布（簇）的概率
利用概率，我们重新计算参数，直到它们不变。

案例

假设有20000个数据点，两个高斯分布，两个标准差都是2，使用GMM聚类。

初始化均值方差。标准差限定了，初始均值即可。随机初始化均值分别为-2和3
根据贝叶斯计算概率

0.5 是每个分布的权重
更新均值

新的均值是基于数据点的加权平均值计算的. 权重由每个数据点属于特定分布的概率决定
迭代和收敛, 重复步骤2和步骤3, 直到μ不再产生变化或变化非常小, 数据点最终分配给概率更高的分布

3. 和K-Means对比

k-means: crisp(hard)-assignment
GMM – probabilistic(soft assignment)
GMM可以看作是k均值的泛化
GMM更灵活。允许椭圆的cluster而不是圆形

原文地址：https://blog.csdn.net/weixin_48846514/article/details/143441359

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：【ESP32+MicroPython】硬件控制基础
下一篇：【STL_list 模拟】——打造属于自己的高效链表容器

linux-下载抖音作品
在linux中批量下载抖音作品。
阅读更多2024-11-06
基于Zynq FPGA对雷龙SD NAND的测试
进入测试程序前，首先会对SD卡初始化并初始化建立FATFS文件系统，随后进入测试SD卡测试程序，在测试程序中，会写入一定大小的文件，然后对写入文件的时间进行测量，得到写入时间；本来打算拿这些样片去试试
阅读更多2024-11-06
【综合案例】使用React编写B站评论案例
在文本框中输入要评论的文本，然后点击【发布】按钮，即可将评论添加到下方的评论列表当中进行展示；和普通JS变量不同的是，状态变量一旦发生变化组件的视图UI。classnames是一个简单的JS库，可以非
阅读更多2024-11-06
关于使用python pptx生成或“复制”PPT页面的问题
这里还要提一嘴PowerPoint，这里主要是不太熟悉这个，里面好多东西都不懂，加之我最开拿到的模板是不完善的，需要调整，然后出现了我当时认为奇葩的问题：有的母版可以删除，有的不可以，并且PPT页面删
阅读更多2024-11-06
Redis常见面试题（二）
Redis常见面试题（二）
阅读更多2024-11-06
基于 Python 的 Django 框架开发的电影推荐系统
Python、Django、Layui、requests、MySQL/SQLite3、数据分析、协同过滤算法、ECharts。
阅读更多2024-11-06
动态库实现lua网络请求GET, POST, 下载文件
编写lua动态库实现网络请求
阅读更多2024-11-06
【数据结构与算法】第8课—数据结构之二叉树(堆)
树是一种非线性的数据结构，它是由n(n>=0)个有限节点组成一个具有层次关系的集合，一般是树根朝上，树叶朝下树有一个特殊的节点，叫做根节点，根节点没有前驱节点树的根节点下面又有很多子节点，但是这
阅读更多2024-11-06
【论文复现】KAN卷积：医学图像分割新前沿
在医学领域，图像分割是一项至关重要的任务。它不仅能够帮助医生更准确地诊断疾病，还能在手术规划、治疗评估以及医学研究等多个方面发挥巨大作用。随着人工智能和深度学习技术的飞速发展，医学图像分割技术也迎来了
阅读更多2024-11-06
群控系统服务端开发模式-应用开发-本地上传工厂及阿里云上传工厂开发
群控系统服务端开发模式-应用开发-本地上传工厂及阿里云上传工厂开发
阅读更多2024-11-06

【机器学习】23. 聚类-GMM: Gaussian Mixture Model

1. 定义和假设

2. 算法内容

案例

3. 和K-Means对比

相关文章