【大数据】机器学习-----------半监督学习

🕗 发布于 2025-01-23 00:38 大数据 机器学习 学习

一、相关知识点

1. 未标记样本

在半监督学习中，除了少量有标记样本外，还存在大量未标记样本。这些未标记样本可以提供关于数据分布的额外信息，帮助模型更好地学习和泛化。

2. 生成式方法

假设数据由某个潜在的概率模型生成，通过对有标记和未标记数据进行联合建模，利用未标记数据来估计模型参数或改进模型。例如，假设数据服从高斯混合模型，通过最大化有标记和未标记数据的似然来学习模型。

3. 半监督SVM

是支持向量机（SVM）在半监督学习场景下的扩展。目标是找到一个能将有标记样本正确分类，同时使决策边界穿过数据低密度区域（利用未标记样本的分布信息）的超平面。

4. 图半监督学习

在这里插入图片描述

将数据点构建成图结构，节点表示数据点，边表示数据点之间的相似性或关系。通过在图上进行信息传播和扩散，利用未标记样本的信息来辅助有标记样本进行学习和预测。例如，基于图拉普拉斯算子的方法。

在某些情况下，对函数(f)进行松弛处理，能让(f)获得一个闭式解，这意味着前面提及的目标方程存在全局最优解。然而，此时(f(x))变成了处于([-1,1])区间的实数，无法直接当作一个标签来使用。不过，我们可以通过设定阈值的方式来解决这个问题，例如，当(f(x) \geq 0)时，预测标签(y = 1)，反之则(y = -1)。

调和函数有着诸多饶有趣味的阐释。不妨将图想象成一张电网，其中每一条边的电阻为(1 / w_{ij})，那些带有标签的点与(1v)的电池相连接，正标签的顶点与电池正极相连，负标签的顶点则与电池负极相连，如此一来，每个节点两端的电压便恰好是调和函数值，就像下面这幅图所展示的那样：

在这里插入图片描述

通过这样的表述，在传达相同知识点的基础上，对文字进行了重新组织和调整，以降低查重率，同时保留了原有的配图，以便更好地辅助理解相关内容。

5. 基于分歧的方法

利用不同的学习器或模型对未标记数据产生的分歧来进行学习。例如，协同训练方法，使用两个不同的视图（特征子集）训练两个分类器，然后让它们互相为对方提供有价值的未标记样本的伪标记，以提高整体性能。

6. 半监督聚类

在聚类任务中引入少量有标记样本，指导无监督的聚类过程，使得聚类结果更符合实际需求和有标记样本所提供的信息。

图片来自与论文：Semi-Supervised Classification with Graph Convolutional Networks
作者：Thomas N. Kipf, Max Welling 来源：ICLR 2017

二、相关数学公式

1. 生成式方法（以高斯混合模型为例）

假设数据由(K)个高斯分布混合而成，对于一个数据点(x)，其概率密度函数为：
- 其中(\pi_k)是第(k)个高斯分量的先验概率，
- ，协方差矩阵为(\Sigma_k)的高斯分布。
- 对于有标记样本((x_i,y_i))，似然函数为

，其中(N_l)是有标记样本数量，(N_u)是未标记样本数量。通过最大化似然函数来估计模型参数。

2. 半监督SVM

目标函数通常包含两部分：一是有标记样本的分类误差，二是决策边界的复杂度和未标记样本的影响。一种常见的形式为：
- 约束条件：
  （对于有标记样本），
  （对于未标记样本，(a)是一个常数）
- 其中(w)是超平面的法向量，(b)是偏置，(\xi_i)和(\hat{\xi}_j)是松弛变量，(C_l)和(C_u)是权衡有标记和未标记样本影响的参数。

3. 图半监督学习（基于图拉普拉斯算子的标签传播）

设图的邻接矩阵为(W)，度矩阵为
，拉普拉斯矩阵
。
标签传播的迭代公式为：
- 其中
  是归一化的邻接矩阵，(F)是数据点的标签矩阵（有标记样本的标签已知，未标记样本的标签在迭代中更新），(Y_l)是有标记样本的标签向量，(\alpha)是传播系数。

三、代码示例

以下是使用scikit-learn库实现半监督学习的一些简单示例：

1. 半监督SVM

from sklearn import datasets
from sklearn.semi_supervised import LabelSpreading

# 加载鸢尾花数据集
iris = datasets.load_iris()
# 假设只有前30个样本有标记
labeled_points = np.random.randint(0, iris.target.size, 30)
labels = np.copy(iris.target)
labels[~labeled_points] = -1

# 创建半监督SVM模型
model = LabelSpreading(gamma=0.25, max_iter=5)
model.fit(iris.data, labels)

# 输出预测结果
print(model.predict(iris.data))

在这里插入图片描述

2. 图半监督学习（标签传播）

from sklearn import datasets
from sklearn.semi_supervised import LabelPropagation
from sklearn.metrics import accuracy_score
from sklearn.model_selection import train_test_split

# 加载鸢尾花数据集
iris = datasets.load_iris()
X = iris.data
y = iris.target

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 假设只有前30个训练样本有标记
labeled_points = np.random.randint(0, y_train.size, 30)
labels = np.copy(y_train)
labels[~labeled_points] = -1

# 创建标签传播模型
lp_model = LabelPropagation(kernel='knn', n_neighbors=7)
lp_model.fit(X_train, labels)

# 在测试集上预测并计算准确率
y_pred = lp_model.predict(X_test)
print("Accuracy:", accuracy_score(y_test, y_pred))

在这里插入图片描述

这些代码示例展示了如何使用scikit-learn库中的半监督学习工具来处理数据。在实际应用中，需要根据具体问题和数据特点选择合适的半监督学习方法和调整参数，以获得更好的性能。

在这里插入图片描述

原文地址：https://blog.csdn.net/yuanbenshidiaos/article/details/145277142

免责声明：本站文章内容转载自网络资源，如侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：Swift语言的学习路线
下一篇：ECCV 2024，全新激活函数！

if_yellow_only_restart_upgrading_nodes_with_unassigned_replicas
要将CR 状态从或yellow状态转为“启动”状态，首先需要解决副本分片未分配的问题，检查并确保集群资源充足，查看并修复升级过程中出现的节点重启问题。如果有必要，可以修改升级策略或暂时调整集群配置，手
阅读更多2025-01-23
Facebook广告零支出无消耗：可能原因与解决方法
Facebook广告预算消耗异常涉及多方面因素，及时排查，辅以可靠的网络工具，往往能有效解决问题。
阅读更多2025-01-23
CSS align-items 属性
属性为弹性容器内的项目指定默认对齐方式。提示：请使用每个项目的align-self属性来覆盖这个 align-items 属性。
阅读更多2025-01-23
【Agent】AI Agents的安全性综述
大语言模型的出现推动了AI Agents的研究和发展。AI Agents可以充当智能助理，通过访问工具并在其环境中执行命令来代表用户完成任务。通过对典型AI Agents工作流程的研究和体验，我们提出
阅读更多2025-01-23
Python保留字与标识符及常变量
保留字；严格区分大小写不可以把保留字作为变量、函数、类、模块和其他对象的名称来使用。
阅读更多2025-01-23
论文阅读--Qwen2&2.5技术报告
后训练数据主要由两部分组成：对齐数据 D = { ( x i , y i ) } 和偏好数据 P = { ( x i , y i + , y i − ) } ，其中 x i 代表指令，y i代表满意的
阅读更多2025-01-23
SpringBoot项目集成MinIO
最近在学习MinIO，所以想让自己的SpringBoot项目集成MinIO,在网上查阅资料，并进行操作的过程中遇到一些问题，所以想把自己遇到的坑和完成步骤记录下来供自己和各位查阅。
阅读更多2025-01-23
使用ListLayoutElements()函数限制返回的布局元素
布局视图中包含大量制图元素,但是对于特定的地理处理脚本而言,很多元素都是多余的.通过ListLayoutElements()函数限制返回的布局元素.5.使用ListLayoutElements()函数
阅读更多2025-01-23
【深度学习】关键技术-模型训练（Model Training）
模型训练是机器学习和深度学习中调整模型参数以优化性能的过程，通常包括以下步骤：数据准备：加载数据、预处理、分割训练集和测试集。模型定义：选择合适的算法或网络架构。损失函数与优化器：定义训练目标（损失函
阅读更多2025-01-23
Nodejs中fs文件系统模块（一）
fs模块作为Node.js的核心组件，提供了一套全面的文件系统操作API，涵盖文件读写、目录管理等关键功能。借助fs模块，开发者无需依赖外部库即可执行文件操作及流处理。该模块API分为同步与异步两种模
阅读更多2025-01-23

【大数据】机器学习-----------半监督学习

一、相关知识点

1. 未标记样本

2. 生成式方法

3. 半监督SVM

4. 图半监督学习

5. 基于分歧的方法

6. 半监督聚类

二、相关数学公式

1. 生成式方法（以高斯混合模型为例）

2. 半监督SVM

3. 图半监督学习（基于图拉普拉斯算子的标签传播）

三、代码示例

1. 半监督SVM

2. 图半监督学习（标签传播）

相关文章