聚类之轮廓系数

🕗 发布于 2024-12-25 10:46 机器学习 支持向量机 人工智能 聚类算法

Silhouette Score（轮廓系数）是用于评估聚类质量的指标之一。它衡量了数据点与同簇内其他点的相似度以及与最近簇的相似度之间的对比。

公式

对于一个数据点 i：

a(i): 数据点 i 到同簇内其他点的平均距离（簇内不相似度）。
b(i): 数据点 i到最近的其他簇中点的平均距离（簇间不相似度）。
轮廓系数计算公式：

其中：
- −1≤s(i)≤1
- s(i)≈1：数据点聚类效果好，点接近同簇而远离其他簇。
- s(i)≈0: 数据点位于簇边界。
- s(i)≈−1: 数据点可能被错误分类到其他簇。

整体 Silhouette Score

对于整个数据集，Silhouette Score 是所有数据点 s(i) 的平均值，用于评价整个聚类的质量。

优点

无需知道数据的真实标签，可用于无监督学习的聚类模型评估。
提供了直观的数值指标，便于模型调参或聚类效果比较。

应用场景

选择最佳的聚类数 k：通过计算不同 k 的 Silhouette Score，选择分数最高的 k。
比较不同聚类算法的性能，例如 KMeans、DBSCAN 或层次聚类。

代码示例（使用 Python）

from sklearn.metrics import silhouette_score
from sklearn.cluster import KMeans
from sklearn.datasets import make_blobs

# 生成样本数据
X, _ = make_blobs(n_samples=500, centers=4, cluster_std=0.7, random_state=42)

# 使用 KMeans 聚类
kmeans = KMeans(n_clusters=4, random_state=42)
labels = kmeans.fit_predict(X)

# 计算 Silhouette Score
score = silhouette_score(X, labels)
print("Silhouette Score:", score)

结果解读

如果分数接近 1，说明聚类效果较好。
如果分数接近 0 或为负数，说明聚类效果较差。

原文地址：https://blog.csdn.net/dundunmm/article/details/144703709

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：微服务常用的中间件及其用途
下一篇：阿里云 Java 后端一面，什么难度？

【AscendC】记录LpNorm的tiling方案中用到的一些变量
LpNorm的官方仓库链接在operator_contrib/LpNormV2CustomSample/FrameworkLaunch/LpNormV2Custom。观察其tiling方案可以看到，有
阅读更多2024-12-25
轻松查找 Docker 之 IP 地址(Easily Find the IP Address of Docker Containers)
‌Docker是一个开源的容器化平台，旨在简化应用程序的开发、部署和运行过程。‌它提供了一种轻量级、可移植和自包含的容器化环境，使开发人员能够在不同的计算机上以一致的方式构建、打包和分发应用程序。‌本
阅读更多2024-12-25
Gin-vue-admin（4）：项目创建前端一级页面和二级页面
刷新进来之后就有了刚刚创建的我的测试，还有之前自动化代码创建的测试结构。view目录下新建一个my，Index.vue。并把刚刚的index的父节点设为我的多级。在角色管理中，给我的测试赋权限。
阅读更多2024-12-25
基于单片机车载冰箱 PID 温度控制
目前，车载冰箱已成为市场上的热销产品。文中产品核心采用了 AT89C52 单片机，利用 PID 算法，用数据字传感器 DS18B20 测量温度，OPA549 驱动半导体制冷器TEC1-12706 控制
阅读更多2024-12-25
Vivado 编译（单核性能对比+高性能迷你主机+Ubuntu20.04/22.04安装与区别+20.04使用远程命令）
选购一款专用于 Vitis 和 Vivado 开发的主机，Vivado 的编译速度很大程度上取决于 CPU 的单核性能，尤其是在布线和综合阶段，最终选择一款迷你主机，不考虑使用独显，核性数一般即可。按
阅读更多2024-12-25
go基本知识与语法入门
Go 语言的设计目标是简洁、并发和高效，它提供了很多优秀的特性，如垃圾回收、内存安全、强类型系统、并发支持等。它适用于从系统编程到网络服务等各种应用领域。通过简洁的语法和工具，Go 能帮助开发者更容易
阅读更多2024-12-25
开源轮子 - EasyExcel01(核心api)
开源轮子 - EasyExcel01(核心api)
阅读更多2024-12-25
1225. 报告系统状态的连续日期 - 力扣（LeetCode）
用于定义临时结果集，使复杂的查询更加清晰和易于管理。
阅读更多2024-12-25
MFC/C++学习系列之简单记录2——thread和Release
针对最近用到得东西进行记录！关于线程的使用介绍和Release版本的生成说明！
阅读更多2024-12-25
MFC/C++学习系列之简单记录9——简单加法
基本的一些使用已经了解，那么就做个简单的加法来练手吧！简单的一个加法器把控件、消息映射等基本功能用起来，后期可以开发更多新玩意！
阅读更多2024-12-25

聚类之轮廓系数

公式

整体 Silhouette Score

优点

应用场景

代码示例（使用 Python）

结果解读

相关文章