机器学习——自监督学习与无监督学习

🕗 发布于 2024-10-08 03:53 机器学习 学习 人工智能

``# 机器学习中的自监督学习与无监督学习

在机器学习的世界中，监督学习、无监督学习和自监督学习都是重要的学习方法。本文将聚焦于自监督学习与无监督学习，探讨它们的原理、应用场景以及技术细节，并通过大量代码示例来揭示这些方法的内在工作机制。本文旨在提供一个深入的、全面的指南，以帮助你理解这些技术的核心理念和应用。

引言

随着深度学习技术的广泛应用，数据的标注成本日益成为机器学习发展的瓶颈之一。无监督学习和自监督学习因此逐渐成为解决这一问题的重要工具。无监督学习主要关注从未标注数据中学习，而自监督学习则试图通过设计辅助任务来利用大量未标注数据，从而提高模型在下游任务中的表现。

在接下来的章节中，我们将深入讨论无监督学习和自监督学习的区别和联系，并且会通过代码实现来展示它们在真实场景中的应用。

无监督学习

无监督学习是一种让模型从未标注数据中提取有用信息的技术。它的主要目标是找出数据的潜在结构。常见的无监督学习算法包括聚类（如 K-Means）、降维（如 PCA）、密度估计等。

聚类分析：K-Means

聚类是无监督学习中的重要任务之一，用于将数据划分为多个簇。K-Means 是最经典的聚类算法之一。我们先通过 Python 实现一个简单的 K-Means 算法。

import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_blobs

# 生成模拟数据
X, y = make_blobs(n_samples=300, centers=4, random_state=42)

# 定义 K-Means 算法
def k_means(X, k, max_iters=100):
    # 随机初始化质心
    np.random.seed(42)
    centroids = X[np.random.choice(X.shape[0], k, replace=False)]
    
    for _ in range(max_iters):
        # 计算每个点到质心的距离
        distances = np.linalg.norm(X[:, np.newaxis] - centroids, axis=2)
        # 为每个点分配最接近的质心
        labels = np.argmin(distances, axis=1)
        # 更新质心位置
        new_centroids = np.array([X[labels == j].mean(axis=0) for j in range(k)])
        
        # 如果质心没有变化，则结束迭代
        if np.all(centroids == new_centroids):
            break
        centroids = new_centroids
    
    return centroids, labels

# 应用 K-Means 算法
centroids, labels = k_means(X, k=4)

# 可视化结果
plt.scatter(X[:, 0], X[:, 1], c=labels, cmap='viridis')
plt.scatter(centroids[:, 0], centroids[:, 1], s=300, c='red', marker='x')
plt.title('K-Means Clustering')
plt.show()

在上面的代码中，我们实现了 K-Means 算法，它通过迭代来最小化簇内样本的距离。这个过程一直进行，直到质心的位置不再变化为止。

降维：PCA

主成分分析（PCA）是一种用于数据降维的无监督学习技术，它通过找出数据中的主成分来降低数据的维度。

以下是 PCA 的一个实现示例：

from sklearn.decomposition import PCA

# 生成高维模拟数据
np.random.seed(42)
X_high_dim = np.random.rand(100, 50)

# 使用 PCA 将数据降到二维
pca = PCA(n_components=2)
X_reduced = pca.fit_transform(X_high_dim)

# 可视化降维后的数据
plt.scatter(X_reduced[:, 0], X_reduced[:, 1])
plt.title('PCA Dimensionality Reduction')
plt.xlabel('Principal Component 1')
plt.ylabel('Principal Component 2')
plt.show()

PCA 的目标是通过线性变换将原始数据映射到低维空间中，从而保留数据的主要信息。

自监督学习

自监督学习是一种介于监督学习和无监督学习之间的学习方法，模型通过生成和解决预定义的辅助任务来从数据中学习特征。自监督学习的优势在于它利用了未标注的数据，通过设计辅助任务来产生伪标签，从而提升模型的性能。

自监督学习的核心思想

自监督学习的基本思想是通过构建辅助任务，模型在完成这些任务时学会有用的特征，这些特征可以用于下游任务。典型的辅助任务包括：

图像块排序：将一张图像分割为多个块，随机打乱顺序，然后让模型恢复原始顺序。
图像旋转预测：随机旋转图像，让模型预测旋转的角度。

接下来我们通过代码实现一个自监督学习的例子：图像块恢复任务。

图像块恢复任务

在这个任务中，我们将一张图像分割为若干块，随机打乱顺序，然后训练一个卷积神经网络来恢复这些块的正确顺序。

import tensorflow as tf
from tensorflow.keras import layers, models
import numpy as np
import matplotlib.pyplot as plt

# 加载 CIFAR-10 数据集
(X_train, _), (_, _) = tf.keras.datasets.cifar10.load_data()

# 选择一张图像并将其分割为 3x3 的块
image = X_train[0]
image_height, image_width, _ = image.shape
block_size = image_height // 3
blocks = [
    image[i * block_size:(i + 1) * block_size, j * block_size:(j + 1) * block_size]
    for i in range(3) for j in range(3)
]

# 打乱这些块
np.random.shuffle(blocks)

# 构建 CNN 模型
model = models.Sequential([
    layers.Input(shape=(block_size, block_size, 3)),
    layers.Conv2D(32, (3, 3), activation='relu'),
    layers.MaxPooling2D((2, 2)),
    layers.Conv2D(64, (3, 3), activation='relu'),
    layers.Flatten(),
    layers.Dense(128, activation='relu'),
    layers.Dense(9, activation='softmax')
])

# 模型编译
model.compile(optimizer='adam', loss='sparse_categorical_crossentropy', metrics=['accuracy'])

# 打印模型结构
model.summary()

上面的代码中，我们使用 TensorFlow 实现了一个简单的卷积神经网络，用于处理图像块恢复任务。这个模型的目标是学习如何将随机打乱的图像块恢复到正确的顺序。

自监督学习与无监督学习的区别与联系

自监督学习与无监督学习的主要区别在于数据标注的方式。无监督学习直接从数据中提取结构信息，而自监督学习通过构建辅助任务来学习数据的有用特征。这两种方法都无需人工标注数据，但它们的学习过程和目标有所不同。

无监督学习可以用于发现数据的聚类结构、生成潜在特征或降维，而自监督学习则更适合从大量未标注数据中学习有用的表示，以便应用于下游的监督任务中。

应用场景对比

无监督学习：主要用于数据探索、聚类、降维等任务。例如，客户分群分析、新药分子结构的发现等。
自监督学习：主要用于特征学习，为下游任务提供优质的特征表示。例如，计算机视觉中的特征提取、NLP 中的词向量表示等。

自监督学习的优势

大规模数据的利用：自监督学习可以在没有标注的数据上进行训练，通过生成伪标签的方式，让模型从数据中获取更多的有用信息。
适应下游任务：自监督学习通常为下游任务学习特征表示，从而提高了这些任务的表现。
更高的泛化能力：通过完成不同的辅助任务，模型可以学习到具有广泛适应性的特征。

总结

自监督学习和无监督学习是解决数据标注不足问题的重要工具。无监督学习通过聚类、降维等方法揭示数据的内在结构，而自监督学习则通过构建辅助任务利用未标注数据来提高模型在下游任务中的表现。

通过本文，我们不仅讨论了这两种学习方法的理论知识，还通过代码实现展示了如何在实际应用中使用这些方法。希望本文能为你提供清晰的理解和实际操作的指导，让你更好地掌握这些前沿技术。

原文地址：https://blog.csdn.net/2301_80374809/article/details/142748326

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：redis-数据类型
下一篇：Linux: network: 典型网络延迟图，CPU导致；

美团餐馆预订管理信息系统--课程设计李冬梅
其中，检索策略总计包括以下6种：基于顺序表的顺序查找、基于链表的顺序查找、基于顺序表的折半查找、基于二叉排序树的查找、基于开放地址法的散列查找、基于链地址法的散列查找。逻辑设计的结果应写出每个抽象数据
阅读更多2024-10-08
【初阶数据结构】冒泡排序和选择排序（用C语言实现，主要讲思维）
讲到排序相信大家一定对一种排序很熟悉，它的名字就叫做冒泡排序。这个排序大家在学习各种语言时，都是一道绕不去的坎。本文还会介绍另一个比较简单的排序 —— 选择排序，以及给大家讲一下选择排序的另一种写法（
阅读更多2024-10-08
服务攻防
的 IP 地址与 MAC 地址的对应关系保存进 ARP 缓存表中，如果原有相同 IP 对应关系，原。询字符：--是 Oracle 和 MSSQL 支持的注释符，如果返回正常，则说明为这两种数据库类。每
阅读更多2024-10-08
Linux 安全日志分析及方法
Linux系统拥有非常灵活和强大的日志功能，可以保存几乎所有的操作记录，并可以从中检索出我们需要的信息。本文简介一下Linux系统日志及日志分析技巧。日志默认存放位置：/var/log/查看日志配置情
阅读更多2024-10-08
贪吃蛇游戏
1. Windows 这个多作业系统除了协调应用程序的执行、分配内存、管理资源之外，它同时也是⼀个很大的服务中心，调用这个服务中心的各种服务（每⼀种服务就是⼀个函数），可以帮应用程序达到开启视窗、描
阅读更多2024-10-08
费曼学习法没有输出对象怎么办？
费曼学习法的实施过程中，虽然没有明确的输出对象，但通过自我提问和回答，模拟向他人解释的情景，学习者可以有效地检验自己对知识的理解程度。通过这种方式，学习者不仅能够加深对知识的理解，还能在讲述过程中发现
阅读更多2024-10-08
CSS——文字渐入效果
昨天制作了文字的打字机效果，然后我想到有些网页的文字效果是平滑渐入的，我就去思考这样的实现方式，其实就把之前的 steps() 函数去掉即可，但是我想换种实现方式。之前是使用伪元素遮住父元素，这次我选
阅读更多2024-10-08
【操作系统考研】2进程管理（1）
820操作系统进程管理（1）
阅读更多2024-10-08
【华三】ADVPN概述和组成
ADVPN（Auto Discovery Virtual Private Network，自动发现虚拟专用网络）是一种基于VAM（VPN Address Management，VPN地址管理）协议的动
阅读更多2024-10-08
GRASP七大基本原则+纯虚构&防变异
GRASP是General Responsibility Assignment Software Principle，通用职责分配软件原则。核心思想是“职责分配”。某个方法要交给哪个类来实现比较合适（
阅读更多2024-10-08