使用 DBSCAN（基于密度的聚类算法）对二维数据进行聚类分析

🕗 发布于 2024-11-16 06:40 算法聚类数据挖掘

代码功能

生成数据：

使用 make_moons 方法生成一个非线性分布的二维数据集，模拟月亮形状的两个半环形分布，同时添加一定的噪声。

数据标准化：

使用 StandardScaler 对数据进行标准化处理，使不同特征的值具有相同的分布范围（零均值和单位方差），以提高 DBSCAN 的距离计算效果。

应用 DBSCAN：

使用 DBSCAN 算法对标准化后的数据进行聚类分析：
eps=0.2 定义两个点被视为“邻居”的最大距离。
min_samples=5 指定一个点需要至少有 5 个邻居才能被视为核心点。
算法将点划分为不同的簇或标记为噪声点。

可视化聚类结果：

使用 Matplotlib 将聚类结果以散点图形式展示：
每个簇以不同颜色表示。
噪声点用黑色标记。

输出聚类统计：

打印每个簇的编号及其包含的点数，同时统计噪声点的数量。
在这里插入图片描述

代码

import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_moons
from sklearn.cluster import DBSCAN
from sklearn.preprocessing import StandardScaler

# 1. 生成示例数据
X, y = make_moons(n_samples=300, noise=0.05, random_state=42)  # 生成类似月亮形状的数据

# 2. 数据标准化（DBSCAN 对距离敏感，建议先标准化）
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# 3. 应用 DBSCAN
dbscan = DBSCAN(eps=0.2, min_samples=5)  # 设置超参数
labels = dbscan.fit_predict(X_scaled)

# 4. 可视化结果
# 获取每个簇的颜色
unique_labels = set(labels)
colors = [plt.cm.Spectral(each) for each in np.linspace(0, 1, len(unique_labels))]

# 绘制聚类结果
plt.figure(figsize=(8, 6))
for k, col in zip(unique_labels, colors):
    if k == -1:
        # 噪声点标记为黑色
        col = [0, 0, 0, 1]
    
    class_member_mask = (labels == k)
    xy = X[class_member_mask]
    plt.plot(xy[:, 0], xy[:, 1], 'o', markerfacecolor=tuple(col), markeredgecolor='k', markersize=6)

plt.title("DBSCAN Clustering")
plt.xlabel("Feature 1")
plt.ylabel("Feature 2")
plt.show()

# 5. 输出聚类结果
for i in unique_labels:
    if i == -1:
        print(f"Cluster: Noise (Label {i}) - Number of points: {(labels == i).sum()}")
    else:
        print(f"Cluster: {i} - Number of points: {(labels == i).sum()}")

原文地址：https://blog.csdn.net/C7211BA/article/details/143807926

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：红黑树
下一篇：利用云计算实现高效的数据备份与恢复策略

DataGrip 连接 Redis、TongRDS
有些旧版本没有 redis 驱动用不了。
阅读更多2024-11-25
【PHP】基础语法，自学笔记（二）
基本的加、减、乘、除、取余、以及幂运算。框中的的参数并计算，处理后返回给页面。字符变量，数，布尔，以及。
阅读更多2024-11-25
wordpress中Gravatar用户头像不显示，免插件实现添加自定义设置上传头像功能
虽热这个功能使用场景和频率都非常低，但在有时候还是需要WordPress来显示头像的，但是zuanmang.net并不是每个人都有注册设置Gravatar头像。将下面的代码加入到你主题的Functio
阅读更多2024-11-25
自然语言处理: RAG优化之Embedding模型选型重要依据：mteb/leaderboard榜
近期RAG 应用不断涌现，它们的性能表现各具特色。尽管我们可以通过多个方面（例如查询改写、图像数据处理、分块策略、元数据管理、密集检索、稀疏检索、结果重排、排序融合、提示词优化以及上下文压缩等）逐步优
阅读更多2024-11-25
【Verilog】第三章作业
9. (单选题)下面两段代码中信号in、q1、q2、q3的值分别是0、1、2、3，那么经过1个时钟周期后，左边程序q3的值和右边程序q3的值分别变为（）。写出表达式以实现图1对应电路的逻辑功能
阅读更多2024-11-25
【docker 保存】将Docker镜像保存为一个离线的tar归档文件
将Docker镜像保存为一个离线的tar归档文件，这样就可以在没有网络连接的情况下，或者在不同的机器上使用这个镜像。这个过程通常包括两个步骤：首先是将镜像保存为tar文件，然后是将这个tar文件传输到
阅读更多2024-11-25
Claude Opus MetaPrompt 系统详解
Claude Opus MetaPrompt 系统详解
阅读更多2024-11-25
docker搭建私有仓库，实现镜像的推送和拉取
这么做的目的是【docker默认不允许htp方式推送镜像，通过配置选项来取消这个限制】新增配置【insecure-registries】，将私服仓库的地址加入。192.168.111.162 部署do
阅读更多2024-11-25
手机文件可以打印出来吗
大多数打印店都具备手机文件上传的能力，可以通过无线传输或数据线连接的方式将手机上的文件传输到打印设备上。然而，打印店的价格通常较高，特别是对于大量文件的打印，成本会显著增加。琢贝云打印提供了一种经济实
阅读更多2024-11-25
【基础算法】链表
【代码】【基础算法】链表。
阅读更多2024-11-25

使用 DBSCAN（基于密度的聚类算法） 对二维数据进行聚类分析