详解机器学习经典模型(原理及应用)——DBSCAN

🕗 发布于 2024-11-13 15:13 机器学习 人工智能 python 算法聚类

一、概念

DBSCAN（Density-Based Spatial Clustering of Applications with Noise）是一种基于密度的聚类算法，它能够在具有噪声的空间数据集中发现任意形状的聚类（即带噪声的聚类模型）。DBSCAN将簇定义为密度相连的点的最大集合，通过在数据空间中找到高密度区域作为簇，同时把孤立点（密度低的点）归为噪声。此外，DBSCAN最大的优势就是它不需要指定聚类簇的数量。

二、模型原理

1、相关概念

ε-邻域（Epsilon-neighborhood）：对于某个点p，以半径ε为边界的区域内所有的点称为该点的ε-邻域。
核心点（Core Point）：如果一个点p的ε-邻域内至少有min_samples个点（包括p自己），那么它被称为核心点。
边界点（Border Point）：如果一个点p在某个核心点的ε-邻域内，但自身不是核心点，它被称为边界点。
噪声点（Noise Point）：如果一个点既不是核心点，也不属于任何核心点的邻域，它被认为是噪声点。
密度直达（Directly Density-Reachable）：如果点p是核心点，并且点q在p的ε-邻域内，那么q被称为从p密度直达。
密度可达（Density-Reachable）：如果存在一条核心点链表（p1→p2→...→pn），使得每个点从前一个点密度直达，且p1=p，pn=q，则q是从p密度可达的。
密度相连（Density-Connected）：如果存在一个点o，使得p和q都从o密度可达，则称p和q是密度相连的。

2、算法流程

（1）初始化

遍历数据集中的每个点p。
对于每个点p，找到其ε-邻域（由我们定义，需要多次尝试找到最优值）内的所有点。

（2）形成聚类

如果p是核心点，创建一个新的聚类C，并将p添加到C。
将p的 ε-邻域内的所有直接密度可达的点添加到C。
递归地，将这些点的直接密度可达的点添加到C。

（3）处理边界点和噪声

如果一个点不是核心点，也不是任何核心点的直接密度可达点，则将其标记为噪声。需要注意的是，噪声点的数量跟ε参数和min_samples参数的取值有关，在不同的取值范围内，点A可能是噪声，也可能是核心点。

（4）合并聚类

如果两个聚类密度相连，则将它们合并为一个聚类。

三、python示例

这里我们使用iris数据集，由于这个数据集的数据量很少，因此如果min_samples设置得稍微大一点，模型就会将所有的点都看作噪声。最佳参数可以通过网格搜索并结合聚类评估指标来确定。

import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets
from sklearn.cluster import DBSCAN
from sklearn.preprocessing import StandardScaler

# 加载数据集
iris = datasets.load_iris()
X = iris.data
y = iris.target

# 数据预处理：标准化特征值
X_scaled = StandardScaler().fit_transform(X)

# 创建DBSCAN模型实例
# eps 是邻域的大小，min_samples 是形成聚类所需的最小样本数
dbscan = DBSCAN(eps=0.2, min_samples=2)

# 执行聚类
clusters = dbscan.fit_predict(X_scaled)

# 可视化聚类结果
plt.scatter(X_scaled[:, 0], X_scaled[:, 1], c=clusters, cmap='viridis', marker='o')
plt.title('DBSCAN Clustering')
plt.xlabel('Feature 1')
plt.ylabel('Feature 2')
plt.colorbar(label='Cluster Label')
plt.show()

# 打印聚类结果的统计信息
n_clusters_ = len(set(clusters)) - (1 if -1 in clusters else 0)  # 减去噪声点
n_noise_ = list(clusters).count(-1)
print(f'Estimated number of clusters: {n_clusters_}')
print(f'Estimated number of noise points: {n_noise_}')

四、总结

DBSCAN是探索性数据分析、数据挖掘中常用的机器学习模型。由于我们在初期数据探索和挖掘阶段，无法很好地确定数据应当聚成多少类，因此K-Means等需要指定聚类簇数量的模型显得不那么有效了。通过调整DBSCAN模型的邻域半径和最小簇内样本数，并结合轮廓系数等聚类评估方法，可以有效地帮助我们自动将数据聚合成相对有意义的N个类簇，从而辅助我们进行数据探索和分析。例如，在NLP领域，尤其是热点挖掘、观点分析等业务中，DBSCAN以及它的优化版变体HDBSCAN都是建模利器。

原文地址：https://blog.csdn.net/ChaneMo/article/details/143726575

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：-- je--tt--on批量转账（空投）
下一篇：高阶函数全解析（定义、应用 -- 函数柯理化反柯理化发布订阅模式观察者模式）

AutoDL上进行tensorboard可视化
3.在实例中执行：tensorboard --port 6006 --logdir work_dirs。2.在实例中执行：export https_proxy=http://127.0.0.1:108
阅读更多2024-11-16
莱特币转型MEME币：背后隐含的加密市场现象
MEME币的兴起标志着加密市场的一种转型，传统的技术创新已经不再是吸引投资者的唯一因素，社区文化和社交媒体的炒作正在成为市场推动力之一。这种趋势的背后，反映了加密市场的一种深层次变化：许多项目原本依靠
阅读更多2024-11-16
STM32仿真proteus位带操作和keil增加头文件C文件
在学习 51 单片机的时候就使用过位操作，通过关键字 sbit 对单片机 IO 口进行位定义。但是 STM32 没有这样的关键字，而是通过访问位带别名区来实现。即将每个比特位膨胀成一个 32 位字，当
阅读更多2024-11-16
【机器学习】机器学习中用到的高等数学知识-5. 函数空间和泛函分析 (Functional Analysis)
函数的连续性和可微性是分析和优化模型的重要数学性质，在机器学习中，这些概念帮助我们评估模型的学习能力和泛化能力。希尔伯特空间和巴拿赫空间是泛函分析中的两个重要概念，它们描述了不同的向量空
阅读更多2024-11-16
苍穹外卖学习-day11
Apache ECharts 是一款基于 Javascript 的数据可视化图表库，提供直观，生动，可交互，可个性化定制的数据可视化图表。常见的统计图形有：柱状图，条形图，折线图不管是哪种形式的图形，
阅读更多2024-11-16
DHTMLX-gantt组件显示不同的颜色
important;important;important;
阅读更多2024-11-16
计算机毕业设计Python+大模型中医养生问答系统知识图谱医疗大数据中医可视化机器学习深度学习人工智能大数据毕业设计
计算机毕业设计Python+大模型中医养生问答系统知识图谱医疗大数据中医可视化机器学习深度学习人工智能大数据毕业设计
阅读更多2024-11-16
使用Markmap从链接生成脑图并下载为交互式HTML文件
在这篇博客中，我们将探讨如何从指定链接中提取内容，生成Markdown格式的脑图，然后使用Markmap将其可视化，并最终下载为交互式HTML文件。通过以上步骤，我们可以轻松从链接中提取内容，生成Ma
阅读更多2024-11-16
SAP+Internet主题HTML样式选择
SAP生成HTML前端界面
阅读更多2024-11-16
关于php Datetime 时区转换因为timezone_version(时区版本)问题造成的时区转换问题
php时区转换 timezone_version(时区版本)问题造成的时区转换问题
阅读更多2024-11-16