初试无监督学习 - K均值聚类算法

🕗 发布于 2024-11-22 09:39 无监督学习 K均值聚类算法

文章目录

1. K均值聚类算法概述
2. k均值聚类算法演示
- 2.1 准备工作
- 2.2 生成聚类用的样本数据集
- 2.3 初始化KMeans模型对象，并指定类别数量
- 2.4 用样本数据训练模型
- 2.5 用训练好的模型生成预测结果
- 2.6 输出预测结果
- 2.7 可视化预测结果
3. 实战小结

1. K均值聚类算法概述

K均值聚类算法是一种迭代的、基于中心的聚类方法，将数据点划分为K个簇。算法通过随机选择初始中心点，然后迭代地分配数据点到最近的簇中心，并更新簇中心为簇内所有点的均值，直到收敛或达到最大迭代次数。它简单、高效，适用于大规模数据集。

2. k均值聚类算法演示

2.1 准备工作

下面的代码导入数据处理和绘图库，设置绘图样式为seaborn-v0_8，格式化NumPy数组输出。

在这里插入图片描述
下面两行代码是Python中使用scikit-learn库进行聚类分析的准备工作：

from sklearn.cluster import KMeans：这行代码从sklearn.cluster模块中导入KMeans类。KMeans是一种常用的聚类算法，用于将数据点分组成K个簇，使得簇内的点尽可能相似，簇间的点尽可能不同。
from sklearn.datasets import make_blobs：这行代码从sklearn.datasets模块中导入make_blobs函数。make_blobs用于生成人造的聚类数据集，这些数据集由若干个“blobs”组成，每个“blob”是一个高密度的数据点集合，它们在特征空间中相对独立，适合用来测试和展示聚类技术的效果。

通常，这两行代码会用在数据分析或机器学习项目的开始阶段，为聚类任务做准备。
在这里插入图片描述

什么是blobs？在机器学习和数据科学领域，“blobs” 这个词通常用来描述一种特定类型的数据集，这种数据集由聚类算法生成，用于测试和展示聚类技术的效果。“Blobs” 数据集包含若干个 “blob”，每个 “blob” 是一个高密度的数据点集合，它们在特征空间中相对独立。
高斯分布：每个 “blob” 通常由高斯（正态）分布生成，这意味着数据点围绕中心点呈钟形分布。
分离性：不同的 “blobs” 之间相对分离，这使得它们容易被聚类算法识别和分开。
维度：“Blobs” 数据集可以是二维的，用于可视化，也可以是更高维度的，用于更复杂的分析。

2.2 生成聚类用的样本数据集

在这里插入图片描述

2.3 初始化KMeans模型对象，并指定类别数量

在这里插入图片描述

2.4 用样本数据训练模型

在这里插入图片描述

2.5 用训练好的模型生成预测结果

在这里插入图片描述

2.6 输出预测结果

在这里插入图片描述

2.7 可视化预测结果

在这里插入图片描述
一旦训练了如 KMeans之类的算法，它就可以预测新样本 ( 之前未见过的样本 ) 所属的类别。假设我们在描述银行潜在债务人和实际债务人的特征数据集上训练这种算法，它可以通过生成两个类别来了解潜在债务人的信誉度，将新的潜在债务人归类为两个类别之一：“信誉良好”与“信誉不佳”。

3. 实战小结

通过本次实战，我们深入理解并应用了K均值聚类算法，这是一种广泛应用于数据科学领域的无监督学习方法。我们首先导入了必要的库，包括数据处理的NumPy、数据分析的Pandas以及数据可视化的Matplotlib，并设置了绘图样式以提升图表美观度。接着，我们利用make_blobs函数生成了模拟数据，为聚类分析提供了基础数据集。

在初始化KMeans模型时，我们指定了类别数量，这在实际应用中需要根据数据特性和业务需求来确定。通过训练模型并生成预测结果，我们成功地将数据点划分为不同的簇。最后，通过可视化预测结果，我们直观地展示了聚类效果，进一步验证了模型的准确性。

此外，我们还探讨了"blobs"的概念，即由聚类算法生成的高密度数据点集合，它们在特征空间中的相对独立性为聚类算法提供了理想的测试环境。通过本次实战，我们不仅掌握了K均值聚类算法的实现流程，还学会了如何通过数据可视化来评估聚类效果，为解决实际问题打下了坚实基础。

原文地址：https://blog.csdn.net/howard2005/article/details/143951811

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：gateway漏洞（CVE-2022-22947）
下一篇：深入理解与实践：Softmax函数在机器学习中的应用

Benchmark是什么？有什么作用？实例——助理解
GLUE 基准作为一个 benchmark，定义了一套标准任务和指标，帮助研究者评估模型的性能。通过在 GLUE 上的测试，你的模型结果可以用数据清楚地展示出来，同时可以与其他模型进行公平比较，这就是
阅读更多2024-11-23
2024年11月22日Github流行趋势
项目维护者：@louis030195, @m13v, @github-actions, @Neptune650, @EzraEllette。项目维护者：@amhsirak, @naveenpan09,
阅读更多2024-11-23
Echarts中柱状图完成横向布局
Echarts中柱状图完成横向布局。
阅读更多2024-11-23
使用uniapp编写APP的文件上传
缺陷是只能一个一个单独上传。使用uniapp插件。
阅读更多2024-11-23
自由学习记录（23）
")如果表里带表，则不能拼接，表里带nil也不能，都会报错true和false也不可以，数字和字符串可以if要和一个end配对，所以endend两个endctrl+b运行脚本函数在表外部声明
阅读更多2024-11-23
深入了解 Linux htop 命令：功能、用法与示例
htop是一个交互式的进程查看工具，用于 Linux 和类 Unix 系统。相比传统的top命令，htop提供了更加直观和用户友好的界面，支持颜色高亮、鼠标操作以及更多可视化功能，适合系统资源的实时监
阅读更多2024-11-23
Python入门（13）--并发编程
Python之旅第十二站
阅读更多2024-11-23
C/C++精品项目之图床共享云存储（6）：图片的共享，浏览，获取，以及短链的生成
这一篇把图片访问和短链的工作原理讲解了
阅读更多2024-11-23
第一章 Go语言简介
go语言是由Google公司在2007年提出的。Go 语言从入门到实战蔡超极客时间 90元。go语言hello_world.go，
阅读更多2024-11-23
[Redis#2] 定义 | 使用场景 | 安装教程 | 快！
Redis是一款高性能的内存数据结构存储系统，支持多种数据类型及丰富的特性如可编程性、扩展性和持久化。它广泛应用于实时数据存储、缓存与会话管理、流处理等场景，具备快速访问、高可用性和分布式集群支持。本
阅读更多2024-11-23

初试无监督学习 - K均值聚类算法

文章目录

1. K均值聚类算法概述

2. k均值聚类算法演示

2.1 准备工作

2.2 生成聚类用的样本数据集

2.3 初始化KMeans模型对象，并指定类别数量

2.4 用样本数据训练模型

2.5 用训练好的模型生成预测结果

2.6 输出预测结果

2.7 可视化预测结果

3. 实战小结

相关文章