大数据-214 数据挖掘机器学习理论 - KMeans Python 实现算法验证 sklearn n_clusters labels

🕗 发布于 2024-11-09 05:08 数据挖掘 机器学习 python 人工智能 大数据

点一下关注吧！！！非常感谢！！持续更新！！！

目前已经更新到了：

Hadoop（已更完）
HDFS（已更完）
MapReduce（已更完）
Hive（已更完）
Flume（已更完）
Sqoop（已更完）
Zookeeper（已更完）
HBase（已更完）
Redis （已更完）
Kafka（已更完）
Spark（已更完）
Flink（已更完）
ClickHouse（已更完）
Kudu（已更完）
Druid（已更完）
Kylin（已更完）
Elasticsearch（已更完）
DataX（已更完）
Tez（已更完）
数据挖掘（正在更新…）

章节内容

上节我们完成了如下的内容：

KMeans Python 实现
距离计算函数
质心函数
聚类函数

在这里插入图片描述

算法验证

函数编写完成后，先以 testSet 数据集测试模型运行效果（为了可以直观看出聚类效果，此处采用一个二维数据集进行验证）。testSet 数据集是一个二维数据集，每个观测值都只有两个特征，且数据之间采用空格进行分隔，因此可以使用 pd.read_table() 函数进行读取。

testSet = pd.read_table('testSet.txt', header=None)
testSet.head()
testSet.shape

执行结果如下图是：
在这里插入图片描述
然后利用二维平面图观察其分布情况：

plt.scatter(testSet.iloc[:,0], testSet.iloc[:,1]);

执行结果如下图所示：
在这里插入图片描述
可以大概看出数据大概分布在空间的四个角上，后续我们对此进行验证。然后利用我们刚才编写的 K-Means 算法对其进行聚类，在执行算法之前需要添加一列虚拟标签列（算法是从倒数第二列开始计算特征值，因此这里需要人为增加多一列到最后）

label = pd.DataFrame(np.zeros(testSet.shape[0]).reshape(-1, 1))
test_set = pd.concat([testSet, label], axis=1, ignore_index = True)
test_set.head()

执行结果如下图所示：
在这里插入图片描述
带入算法进行计算，根据二维平面坐标点的分布特征，我们可以考虑设置四个质心，即将其分为四个簇，并简单的查看运算结果：

test_cent, test_cluster = kMeans(test_set, 4)
test_cent
test_cluster.head()

执行结果如下图所示：
在这里插入图片描述
将分类结果进行可视化展示，使用 scatter 函数绘制不同分类点不同颜色的散点图，同时将质心也放入同一张图中进行观察：

import matplotlib.pyplot as plt

# 绘制聚类点
plt.scatter(test_cluster.iloc[:, 0], test_cluster.iloc[:, 1], c=test_cluster.iloc[:, -1], cmap='viridis')

# 绘制聚类中心
plt.scatter(test_cent[:, 0], test_cent[:, 1], color='red', marker='x', s=100)

# 设置图形的标题和轴标签
plt.title('Cluster Plot with Centroids')
plt.xlabel('Feature 1')
plt.ylabel('Feature 2')

# 显示图形
plt.show()

执行结果如下图所示：
在这里插入图片描述
生成的图片如下所示：

sklearn实现 K-Means

from sklearn.cluster import KMeans

# KMeans 初始化示例
kmeans = KMeans(
    n_clusters=8,               # 聚类数量
    init='k-means++',            # 初始化质心的方法
    n_init=10,                   # KMeans 算法重新运行的次数（初始质心选择不同）
    max_iter=300,                # 最大迭代次数
    tol=0.0001,                  # 容忍度，控制收敛的阈值
    verbose=0,                   # 控制输出日志的详细程度
    random_state=None,           # 随机种子控制聚类的随机性
    copy_x=True,                 # 是否复制 X 数据
    algorithm='auto'             # 使用的 KMeans 算法，'auto' 已弃用，建议使用 'lloyd'
)

# 执行示例数据集上的 KMeans
# 例如，假设你有一个数据集 X：
# kmeans.fit(X)

n_clusters

n_clusters 是 K-Means 中的 k ，表示着我们告诉模型我们要分几类，这是 K-Means当中唯一一个必填的参数，默认为 8 类，但通常我们聚类结果是一个小于 8 的结果，通常，在开始聚类的之前，我们并不知道 n_clusters 究竟是多少，因此我们要对它进行探索。
当我们拿到一个数据集，如果可能的话，我们希望能够通过绘图先观察一下这个数据集的数据分布，以此来为我们聚类时输入的 n_clusters 做一个参考。

首先，我们来自己创建一个数据集，这样的数据集是我们自己创建的，所以是有标签的。

import matplotlib.pyplot as plt
from sklearn.datasets import make_blobs

# 创建数据集
X, y = make_blobs(n_samples=500, n_features=2, centers=4, random_state=1)

# 可视化数据集
plt.figure(figsize=(6, 6))
plt.scatter(X[:, 0], X[:, 1], marker='o', s=8)  # s=8 表示点的大小
plt.xlabel('Feature 1')
plt.ylabel('Feature 2')
plt.title('Scatter plot of generated blobs')
plt.show()

对应结果如下图所示：
在这里插入图片描述
生成的图片如下所示：

查看分布的情况：

import matplotlib.pyplot as plt

# 查看数据分布
color = ["red", "pink"]
for i in range(2):  # 由于 y 只有 0 和 1 两类，因此只需要两个循环
    plt.scatter(X[y == i, 0], X[y == i, 1], 
                marker='o',  # 点的形状
                s=8,         # 点的大小
                c=color[i])  # 颜色

plt.xlabel('Feature 1')
plt.ylabel('Feature 2')
plt.title('Scatter Plot of Two Classes')
plt.show()

执行结果如下图所示：
在这里插入图片描述

对应的图片如下所示：
在这里插入图片描述
基于这个分布，我们来使用 K-Means 进行聚类。
首先，我们要猜测一下，这个数据中有几个簇？

cluster.labels

重要属性 labels_，查看聚好的类别，每个样本所对应的类

from sklearn.cluster import KMeans
from sklearn.datasets import load_breast_cancer
import numpy as np

# 加载数据集
data = load_breast_cancer()
X = data.data

# 定义聚类的簇数
n_clusters = 3

# 使用KMeans进行聚类
cluster = KMeans(n_clusters=n_clusters, random_state=0).fit(X)

# 获取聚类结果的标签
y_pred = cluster.labels_

# 输出聚类的标签
print(y_pred)

K-Means 因此并不需要建立模型或者预测结果，因此我们只需要 fit 就能够得到聚类结果了
K-Means 也有接口 predict 和 fit_predict
predict 表示学习数据 X 并对 X 的类进行预测（对分类器 fit 之后，再预测）
fit_predict 不需要分类器.fit()之后都可以预测
对于全数据而言，分类器 fit().predict 的结果 = 分类器.fit_predict(X) = cluster.labels

执行结果如下图所示：
在这里插入图片描述
我们什么时候需要 predict？当数据量太大的时候，当我们数据量非常大，我们可以使用部分数据来帮助我们确认质心。
剩下的数据的聚类结果，使用 predict 来调用：

cluster_smallsub = KMeans(n_clusters=3, random_state=0).fit(X[:200])
sample_pred = cluster_smallsub.predict(X)
y_pred == sample_pred

执行结果如下图所示：
在这里插入图片描述
但这样的结果，肯定与直接 fit 全部数据会不一致，有时候，当我们不要求那么精确，或者我们的数据量实在太大，那我们可以使用这样的做法。

原文地址：https://blog.csdn.net/w776341482/article/details/143614625

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：IT维修记录表导入接口的思路
下一篇：JSON格式

Windows电脑本地部署llamafile并接入Qwen大语言模型远程AI对话实战
Windows电脑本地部署llamafile并接入Qwen大语言模型远程AI对话实战
阅读更多2024-11-23
解决vm虚拟机中ctrl键粘滞问题（一直处于按下状态）
虚拟机中点击鼠标左键没有问题，单独按下键盘也没有问题，但是如果按下键盘的同时在按下鼠标左键就会卡住。而且100%稳定复现。发现问题原因：vm版本的问题，我的版本是17.5.0，升级成17.5.2 bu
阅读更多2024-11-23
第十章 JavaScript的应用
10.1.1 JavaScript简介1 简单性JavaScript 设计之初就考虑到了非专业程序员的使用，因此它的语法相对简单，容易上手。2 动态性JavaScript 是一种解释型语言，代码可以在
阅读更多2024-11-23
非root用户安装CUDA
4.下载完成后执行.run文件，需要添加两个参数，一个是--override，用于跳过某些检查或限制；另一个是--toolkitpath，它表示安装路径，必须是自己目录下面的路径，如果是根目录就会安装
阅读更多2024-11-23
Python操作neo4j库py2neo使用之py2neo 删除及事务相关操作（三）
【代码】## Python操作neo4j库py2neo使用之py2neo 删除及事务相关操作（三）
阅读更多2024-11-23
【通俗理解】Jensen不等式与变分分布q(z)在积分计算中的应用
Jensen不等式 #变分分布 #积分计算 #期望 #凸函数 #优化问题 #下界估计 #机器学习。
阅读更多2024-11-23
「Mac玩转仓颉内测版27」基础篇7 - 字符串类型详解
本篇将介绍 Cangjie 中的字符串类型，包括字符串的定义、字面量形式、插值表达、常用操作及应用场景，帮助开发者熟练掌握字符串的使用。
阅读更多2024-11-23
数据科学与SQL：组距分组分析 | 区间分布问题
绝对值分布分析也可以理解为组距分组分析。对于某个指标而言，一个记录对应的指标值的绝对值，肯定落在所有指标值的绝对值的最小值和最大值构成的区间内，根据一定的算法，在把这个区间划分为等距离的几个小区间，，
阅读更多2024-11-23
c++编译报C1004错误的原因及解决办法
可能是你的代码文件最后没有正确的结束符，或者是缺少了一些必要的头文件或语句。默认磁盘驱动器没有足够的空间用于临时文件，需要大约两倍于源文件的空间。编译器到达了源文件尾但未解析构造。计算结果为假的 #i
阅读更多2024-11-23
mysql 去重补全取出重复变量函数和存储过程
mysql 去重补全取出重复变量函数和存储过程
阅读更多2024-11-23

大数据-214 数据挖掘 机器学习理论 - KMeans Python 实现 算法验证 sklearn n_clusters labels