内容补充页(相关公式解释)

🕗 发布于 2024-11-18 07:32 学习

from 学习日记_20241117_聚类方法（高斯混合模型）

学习日记_20241117_聚类方法（高斯混合模型）

公式 $\pi_k$

在高斯混合模型 (GMM) 中，公式 $\pi_k$ 描述了选择某个高斯成分 $k$ 的概率，其中 $Z$ 是一个潜在变量（latent variable），表示数据点所属的成分。

详细解释

潜在变量 $Z$ ：
- $Z$ 是一个离散随机变量，它的取值范围为 $\{1, 2, \ldots, K\}$ ，其中 $K$ 是模型中高斯成分的数量。每个 $k$ 对应一个高斯分布。
权重 $\pi_k$ ：
- $\pi_k$ 是与成分 $k$ 相关的权重，表示在所有成分中选择成分 $k$ 的概率。它满足以下条件：
  - $\pi_k \geq 0$ （非负性）
  - $\sum_{k=1}^{K} \pi_k = 1$ （归一化条件）
模型解释：
- 这个公式表明，在生成数据的过程中，根据权重 $\pi_k$ ，我们会选择其中一个成分 $k$ 。这个选择是随机的，但在长期来看，每个成分 $k$ 被选择的概率正好等于其权重 $\pi_k$ 。

生成过程

在 GMM 的生成过程中，首先选择一个成分 $ Z $，然后在选择的成分下从对应的高斯分布中生成样本 $ X $。这个过程可以概述为：

从权重分布中选择成分 $k$ ：
$\pi_k$
在选择的成分下，从该成分的高斯分布中生成数据：
$\sim \mathcal{N}(\mu_k, \Sigma_k)$

例子

假设我们有一个 GMM 模型，其中包含两个高斯成分（即 $K = 2$ ），其权重分别为 $\pi_1 = 0.6$ 和 $\pi_2 = 0.4$ 。这意味着：

有 60% 的概率选择成分 1，生成该成分下的样本。
有 40% 的概率选择成分 2，生成该成分下的样本。

总结

公式 $\pi_k$ 是高斯混合模型的核心部分，定义了数据生成过程中选择每个高斯成分的概率。通过这些成分的加权组合，GMM 能够有效地建模复杂的分布结构。

公式 $\sim \mathcal{N}(\mu_k, \Sigma_k)$

公式 $\sim \mathcal{N}(\mu_k, \Sigma_k)$ 描述的是在给定潜在变量 $Z$ 等于某个特定值 $k$ 的情况下，随机变量 $X$ 的条件分布。这里的含义可以分解为以下几点：

1. 条件分布

$X ∣ Z = k$ 表示在选择了成分 $k$ 的条件下生成的数据点 $X$ 。
这意味着我们只关注在成分 $k$ 下生成的数据特性。

2. 高斯分布

$\sim \mathcal{N}(\mu_k, \Sigma_k)$ 表示 $X$ 服从均值为 $\mu_k$ 、协方差矩阵为 $\Sigma_k$ 的多元高斯分布（或正态分布）。
- 均值 $\mu_k$ ：这是成分 $k$ 的中心位置，表示该成分的“典型”数据点。
- 协方差矩阵 $\Sigma_k$ ：它描述了成分 $k$ 的数据点的分布形状和方向。协方差矩阵的对角线元素表示不同特征的方差，而非对角线元素则表示特征之间的相关性。

3. 模型的生成过程

在高斯混合模型中，生成数据的过程可以总结为以下两步：

选择成分：
- 根据权重 $\pi_k$ 随机选择一个成分 $k$ 。
生成样本：
- 一旦选择了成分 $k$ ，根据该成分的高斯分布生成数据点 $X$ 。这可以通过从高斯分布中抽样来实现。

举例说明

假设我们有两个高斯成分 $K = 2$ ：

成分 1： $\mu_1 = [2, 3]$ ， $\Sigma_1 = \begin{bmatrix} 1 & 0 \\ 0 & 1 \end{bmatrix}$
成分 2： $\mu_2 = [5, 7]$ ， $\Sigma_2 = \begin{bmatrix} 2 & 0 \\ 0 & 2 \end{bmatrix}$
在生成数据时：

以一定的概率（例如 $\pi_1 = 0.6$ , $\pi_2 = 0.4$ ）选择成分。
如果选择成分 1，生成的数据点 $X$ 将会满足：
$\sim \mathcal{N}\left(\begin{bmatrix} 2 \\ 3 \end{bmatrix}, \begin{bmatrix} 1 & 0 \\ 0 & 1 \end{bmatrix}\right)$
这意味着生成的点将会在均值 $[2, 3]$ 附近，并且具有单位方差，表示每个维度独立。

总结

公式 $\sim \mathcal{N}(\mu_k, \Sigma_k)$
是高斯混合模型的核心部分，描述了在选择特定高斯成分 $k$ 的情况下数据的分布特性。通过不同成分的组合，GMM 能够灵活地捕捉复杂数据集的结构。

原文地址：https://blog.csdn.net/2301_81791289/article/details/143833467

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：3、PyTorch张量的运算API（下）
下一篇：Unity类银河战士恶魔城学习总结（P131 Improve Item Slot 改进物品描述）

分布式数据库
随着互联网的快速发展，数据量和访问量呈现爆炸式增长，单机数据库逐渐难以满足高并发、大规模数据存储和处理的需求。分布式数据库应运而生，成为解决这些问题的重要技术。分布式数据库不仅能够处理大规模数据，
阅读更多2024-11-23
【手写一个spring】spring源码的简单实现--初始化机制,回调机制
这个操作符返回一个布尔值：如果对象是指定类型的实例，或者是指定类型子类的实例，则返回 true；初始化时自动调用相应的回调方法，并将相关的上下文或资源对象传递给。接口:如果实现,直接强制类型转换后,对
阅读更多2024-11-23
HTML常用表格与标签
【代码】HTML常用表格与标签。
阅读更多2024-11-23
云服务器部署WebSocket项目
5.上传war包到tomcat文件夹的webapp目录下。先执行clean，再执行install。（2）解压后进入到文件目录，启动。3.在服务器上安装tomcat。6.重新启动tomcat，访问。2.
阅读更多2024-11-23
TESSY单元测试工具详解与操作演示：ISO 26262合规性、自定义测试用例、详细测试报告等
单元测试工具TESSY，符合ISO 26262等汽车软件安全标准，简化和自动化测试流程，基本操作演示请查收↓创建新模块、定义测试用例输入测试数据、执行与评估测试生成详细的测试报告...
阅读更多2024-11-23
【深入学习大模型之：微调 GPT 使其自动生成测试用例及自动化用例】
训练深度学习模型自动生成测试用例、自动化代码和文本小说的步骤：数据准备：收集并清洗目标任务所需的数据集。模型选择：选择合适的预训练模型（如GPT系列、T5等），并对其进行微调。模型训练：使用训练框架（
阅读更多2024-11-23
python语言基础
【代码】python语言基础。
阅读更多2024-11-23
Linux麦克风录音实战
在 Linux 上使用麦克风进行录音可以通过多种方式实现，包括使用命令行工具、图形界面应用程序以及编程接口。下面我将介绍几种常见的方法，从简单的命令行工具到使用 PortAudio 库进行编程。
阅读更多2024-11-23
Cesium的ClearCommand的流程
ClearCommand是在每帧渲染前可以将显存的一些状态置为初始值，就如同把擦黑板。当然也包括在绘制过程中擦掉部分的数据，就如同画家在开始绘制的时候会画导览线（如透视线），轮廓出来后这些导览线就会被
阅读更多2024-11-23
集成金蝶云星空数据至MySQL的完整案例解析
在本次集成方案中，我们利用了轻易云数据集成平台的强大功能，实现了从金蝶云星空获取物料数据并同步至MySQL数据库的全过程管理。综上所述，通过合理配置元数据，构建合适的SQL语句，并结合异常处理和实时监
阅读更多2024-11-23