机器学习之非监督学习（四）K-means 聚类算法

🕗 发布于 2024-09-25 21:56 机器学习 算法学习

机器学习之非监督学习（一）K-means 聚类算法

0. 文章传送
1.非监督学习定义
2.非监督学习分类
- 2.1 聚类 Clustering
- 2.2 异常检测 Anomaly Detection
3.K-means聚类算法 K-means clustering
4.案例实战：图像压缩

0. 文章传送

机器学习之监督学习（一）线性回归、多项式回归、算法优化[巨详细笔记]
机器学习之监督学习（二）二元逻辑回归
 机器学习之监督学习（三）神经网络基础
 机器学习之实战篇——预测二手房房价(线性回归）
机器学习之实战篇——肿瘤良性/恶性分类器（二元逻辑回归）
机器学习之实战篇——MNIST手写数字0~9识别（全连接神经网络模型）
机器学习之监督学习（四）决策树和随机森林

1.非监督学习定义

非监督学习是一种机器学习方法，在这种方法中，模型在没有预先标记的数据的情况下进行训练。相较于监督学习（需要提供输入和对应的输出标签），非监督学习仅依赖输入数据自身的结构来发现数据内部的模式和关系。

2.非监督学习分类

2.1 聚类 Clustering

聚类的目标是将数据集划分成多个组（或簇），使得簇内的数据点彼此相似，而不同簇的数据点差异较大。常见的聚类算法有 K 均值聚类（K-Means）、层次聚类和 DBSCAN 等。

2.2 异常检测 Anomaly Detection

异常检测的目标是识别数据集中与大多数数据点显著不同的异常数据点。异常检测在网络安全、金融欺诈检测等领域有广泛应用。常见的方法有孤立森林（Isolation Forest）和基于密度的检测方法等。

3.K-means聚类算法 K-means clustering

案例引入

在购买衣物时，我们通常根据自己的身高和体重来选择合适尺码的衣服，常见的衣服衣服型号标法为小(S)、中(M)、大(L)。假设某衣服生产商收集了一些用户身高和体重的数据，如果要根据这些数据点划分三个类别，该如何实现最优划分呢？这便是典型的聚类问题，如下图所示，三个圈代表三种型号，将无标签的数据划分为三个类别。下面介绍处理聚类问题的K-means算法。
在这里插入图片描述

算法步骤

K-means聚类算法步骤如下：

randomly generate cluster centroids 随机产生簇心
assign each point to its closest centroid 将点分配到最近的簇中
recompute the centroids 重新计算簇心（簇内的中心点）
repeat step2 and step3 重复步骤2和步骤3直至簇心不再移动（或点所处簇不再改变）

在这里插入图片描述
从上面的动图可以很直观地理解算法的思想，需要注意的是，起始点选择不同，聚类的结果也不同。

用数学语言表示如下：
$m个数据，n个特征，m个数据分别记为x^{(1)}、x^{(2)}、...、x^{(m)}，每个数据为n维向量$

$目标:将数据分为K部分,划分结果保存在m\times1列向量c中$

$Step1:随机初始化K个簇心\mu_1、\mu_2、...、\mu_K$

$\quad c^{(i)}=\argmin_{k}||x^{(i)}-\mu{_k}||$

$\mu_k=average(x^{(i)})|c^{(i)}=k$

$St e p 4 : 重复 St e p 2 和 St e p 3$

注意：在训练过程中，可能出现某一簇(或多)内无点的情况，结果产生K-1(>1)簇。此时可以更改决策方案，或者如果希望目标结果必须产生K个簇，那么可以更改起始簇心位置再次进行聚类。

算法优化

成本函数

既然初始簇心选择不同会导致聚类结果不同，那么如何评估聚类效果并选择最优方案。设计优化函数，首先需要先定义成本函数：
$J(c^{(1)},...,c^{(m)},\mu_{1}、...、\mu_{K})=\frac{1}{m}\sum_{i=1}^{m}||x^{(i)}-\mu_{c^{(i)}}||^2$

由于聚类结果的具体表现是各个簇心的位置以及每个数据被归类情况，因此J包含了上面所示的m+K个参数。这里的成本函数是平均每个数据点到所处簇心距离的平方。再回过头看上面的算法步骤，我们发现算法实际上就是不断减少J的过程：

Step 2 : fix $\mu$ ,assign $c$ to minimize J(固定簇心位置，分配每个数据点给最近的簇心，下降J)

Step 3 : fix c,shift $\mu$ to minimize J(固定每个数据点所属簇,中心化簇心位置，下降J)

In theory : J keep going down and converge(理论上，J不断下降直至收敛)

有了成本函数，我们就可以采用蒙特卡罗思想，进行多次试验，不同初始化得到的最终结果存在差异，挑选cost最小的作为最优方案。

初始化方法

还有一个问题需要解决，如何随机初始化簇心？下面是几种随机初始化方法：

①随机选择数据点
方法：从数据集中随机选择 K 个数据点作为初始簇心。
优点：简单易行，快速实现。
缺点：可能会选择到极端点，导致不良结果。

② 分布式初始化
方法：将数据空间划分为 K 个区域，然后从每个区域中随机选择一个数据点作为簇心。
优点：可以确保簇心的初始位置分散，避免集中在某一部分数据上。

③ K-means++
方法：在选择每个新的簇心时，使得新簇心与已有簇心的距离尽可能远。具体步骤如下：
随机选择一个数据点作为第一个簇心。
对于每个数据点，计算其与已选择簇心的最小距离。
根据这些距离的平方（即 D(x)^2）进行概率选择，选择下一个簇心。
重复步骤 2 和 3 直到选择到 K 个簇心。
优点：能显著提高聚类效果，通常收敛速度更快，得到的结果更稳定。

注：关于概率选择，可以使用numpy.random中的choice函数，示例：

next_center = np.random.choice(X, p=probabilities)

K的选择

有时候我们并不能提前根据数据点的分布确定聚类的类别数量K，或者对K的选择没有什么思路，以下是关于K的一些选择策略和解释：

肘部法 elbow method :
方法：通过绘制K-J曲线，选择合适的K（下降变化速率发生突变的临界K值）
弊端：不适用于平滑下降的曲线
在这里插入图片描述

除了上面的技术方法，考虑实际业务需求和可解释性也非常重要。例如：

市场需求：根据市场调研和客户反馈，了解消费者对不同型号的需求。这可以帮助你决定是否需要更多的细分（即更多的聚类）或者更简单的分类（即更少的聚类）。
生产和库存管理：更多的型号意味着更复杂的生产和库存管理。评估你的生产能力和库存管理能力，确定是否能有效管理更多的型号。
可解释性：更多的聚类可能导致更难解释每个型号的特点，特别是对销售和市场团队而言。确保每个聚类（型号）都能被清晰地描述和定位。

代码实现

K-means算法每个步骤函数以及最后整合的完整如下，

import numpy as np
import matplotlib.pyplot as plt


# 计算每个数据点所归属的簇
def find_closest_centroids(X, centroids):
    K = centroids.shape[0]
    m = X.shape[0]
    idx = np.zeros(m, dtype=int)
    for i in range(m):
        idx[i] = np.argmin(np.sum((X[i] - centroids) ** 2, axis=1))
    return idx


# 根据当前分类情况计算新的簇心
def compute_centroids(X, idx, K):
    m, n = X.shape
    centroids = np.zeros((K, n))
    for k in range(K):
        cond = (idx == k)
        if cond.any():
            X_k = X[cond]
            centroids[k] = np.mean(X_k, axis=0)
        else:  # 如果没有点被分配到这个簇，则随机选择一个点作为新的簇心
            centroids[k] = X[np.random.choice(X.shape[0])]
    return centroids


# 随机初始化簇心
def kMeans_init_centroids(X, K):
    randidx = np.random.permutation(X.shape[0])
    centroids = X[randidx[:K]]
    return centroids


# 成本函数
def KMeans_compute_cost(X, centroids, idx):
    m = X.shape[0]
    cost = 0
    for i in range(m):
        K_idx = idx[i]
        X_centroid = centroids[K_idx]
        cost += np.sum((X_centroid - X[i]) ** 2)
    return cost / m


# 运行 K-means 聚类算法
def run_kMeans(X, K, max_iters=10, test_times=50):
    m, n = X.shape
    min_cost = float('inf')
    best_idx = np.zeros(m)
    best_centroids = np.zeros((K, n))

    for j in range(test_times):
        print(f'K-Means test {j}/{test_times - 1}:')
        initial_centroids = kMeans_init_centroids(X, K)
        centroids = initial_centroids

        for i in range(max_iters):
            print(f'K-Means iteration {i}/{max_iters - 1}', end=', ')
            idx = find_closest_centroids(X, centroids)
            centroids = compute_centroids(X, idx, K)
            cost = KMeans_compute_cost(X, centroids, idx)

        if cost < min_cost:
            min_cost = cost
            best_idx = idx
            best_centroids = centroids
            print(f'cost: {cost}, min_cost: {min_cost}')

    return best_centroids, best_idx

为了验证代码正确性和性能，随机在平面内三个点附近生成一系列点，构成试验数据集，并运行聚类算法最后可视化

# 生成数据集
def generate_data():
    np.random.seed(42)
    cluster1 = np.random.randn(100, 2) + np.array([1, 1])
    cluster2 = np.random.randn(100, 2) + np.array([5, 5])
    cluster3 = np.random.randn(100, 2) + np.array([9, 1])
    return np.vstack((cluster1, cluster2, cluster3))


# 可视化数据和聚类结果
def visualize(X, centroids, idx):
    plt.figure(figsize=(8, 6))
    K = centroids.shape[0]

    # 绘制数据点
    for k in range(K):
        plt.scatter(X[idx == k, 0], X[idx == k, 1], label=f'Cluster {k + 1}')

    # 绘制簇心
    plt.scatter(centroids[:, 0], centroids[:, 1], s=300, c='red', marker='X', label='Centroids')
    plt.title('K-means Clustering')
    plt.xlabel('Feature 1')
    plt.ylabel('Feature 2')
    plt.legend()
    plt.show()


# 主函数
if __name__ == "__main__":
    # 生成数据集
    X = generate_data()

    # 设置簇的数量
    K = 3
    max_iters = 10
    test_times = 50

    # 运行 K-means 聚类
    best_centroids, best_idx = run_kMeans(X, K, max_iters, test_times)

    # 可视化结果
    visualize(X, best_centroids, best_idx)

实验结果：可以看到聚类效果很好，三个簇心几乎与数据集构建的三个起始点重合。
在这里插入图片描述

4.案例实战：图像压缩

原文地址：https://blog.csdn.net/2301_79376014/article/details/142369030

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：详解机器学习经典模型(原理及应用)——随机森林
下一篇：设计模式之装饰模式（Decorator）

UML概述、类图关系及连接线表示
继承和实现体现的是一种类与类、或者类与接口间的纵向关系;依赖关联聚合组合体现的是类与类、类与接口间的引用，即横向关系;这几种关系，所表现的强弱程度依次为：组合 > 聚合 > 关联 >
阅读更多2024-11-17
131. HTML标签遮挡Canvas画布事件
HTML元素标签外面div父元素遮挡了Canvas画布鼠标事件，会造成相机控件的旋转、缩放等操作无效，也有可能会影响你的射线拾取,等等任何与canvas画布有关的鼠标事件都有可能收到影响，不过这算是普
阅读更多2024-11-17
Scala-字符串（拼接、printf格式化输出等）-用法详解
Scala-字符串（拼接、printf格式化输出等）用法
阅读更多2024-11-17
c++原型模式（Prototype Pattern）
每个原型类实现自己的克隆方法，从而确保了对象的正确复制。
阅读更多2024-11-17
问题大集-01-kafka问题
1、Windows下启动单机kafka出现：系统找不到指定路径解决：是kafka不能识别本机的java环境（JVM），故需要指定java路径，进入kafka路径下的\bin\windows，找到：ka
阅读更多2024-11-17
【点云上采样】最近邻插值上采样算法增加点云密度
传感器采集到的点云比较稀疏，毕竟价位在那，好的太贵，买便宜的点又太稀，需要增加点云数据。
阅读更多2024-11-17
阮一峰科技爱好者周刊（第 325 期）推荐工具：一个基于 Next.js 的博客和 CMS 系统
近期，阮一峰在科技爱好者周刊第 325 期中推荐了一款开源工具——ReactPress，ReactPress一个基于 Next.js 的博客和 CMS 系统，可查看 demo站点。（@fecommun
阅读更多2024-11-17
js识别二维码
将二维码转换为链接
阅读更多2024-11-17
C 语言【单链表】
‌数据域用于存储实际的数据，而指针域则存储指向下一个节点的地址。单链表的特点包括动态存储、非连续存储、易于插入和删除。节点可以定义成一个结构体，每个节点中包含一个数据和下一个节点的地址。上面的结构体定
阅读更多2024-11-17
校园求职招聘系统（程序+数据库+报告）
基于Spring Boot框架实现的校园求职招聘系统，系统包含两种角色：管理员、用户,系统分为前台和后台两大模块
阅读更多2024-11-17