【TDA】持续同调的矢量化方法

🕗 发布于 2024-10-19 23:32 TDA

Topological deep learning: a review of an emerging paradigm
持续同调与深度学习协同下的3D点云分类_苏潇
Applications of Topology to Data Analysis
Computational Topology: An Introduction

持续同调对于特征的方式有条形码PB和持续图表PD两种形式,它们包含了持续同调的所有信息。条形码对于特征的表征方式非常的直观, 但对其直接进行统计分析是比较复杂的事情, 而持续图表作为一个多重点集也无法直接作为机器学
习和深度学习网络的输入。
为了进一步将持续同调提取的拓扑特征应用于机器学习、统计分析和深度学习方法, 各种关于持续图表的度量稳定且便于嵌入的矢量化方式被提出。
这些方法将拓扑空间中对物体拓扑结构特征的表征方式—持续图表转换为向量、矩阵、数组等形式, 以便在向量空间中可以使用基于距离和内积的工具, 从而用于各种机器学习方法、统计分析理论与算法、深度学习网络等.

PD是一个不完备的度量空间; PE作为单个数值直接应用过于片面; PL的计算代价过大; 由于 PD中离散点的个数有限导致 PI中的大部分区域取值为 0, 这使得数据量级较大的 PI存在较多无效信息. 此外, 在实际问题中各种矢量化方法精度存在较大的差异, 适用范围也不尽相同.

1、持续同调熵

持续同调熵（Persistent Entropy, PE）是对拓扑空间的特征表示方法之一，它是依据持续同调条形码的概率分布计算得到的香农熵值。持续同调熵可以作为衡量任意两个条形码相似程度的一个指标，用以比较不同物体之间拓扑结构的差异。因其源于概率分布香农熵，结果较为稳定。持续同调熵的定义如下。

给定一个特定维度下的持续同调条形码，将其记作 $B = \{[b_i, d_i]\}_{i=1}^n$ ，计算每个“条”的长度 $l_i = d_i - b_i$ （假定没有无限长度条）以及所有“条”长度的总和 $l_1 + \cdots + l_n$ ，那么持续同调熵的定义为：

$-\sum_{i=1}^n \frac{l_i}{L(B)} \log \left( \frac{l_i}{L(B)} \right)$

$E(B)=\sum_{i=1}^{n}-\frac{l_{i}}{L(B)} \log \left(\frac{l_{i}}{L(B)}\right) .$

由于持续同调熵是从无限维的持续同调条形码映射到一维空间的, 因而使用单一的数字去概括持续同调特征存在一定的局限性.

2、持续性景观

持续性景观（Persistence Landscapes, PL）是对持续图表进行编码的方式之一，是在巴拿赫空间或者希尔伯特空间内有数值的随机变量。持续性景观通过把持续图表的散点集映射为分段线性函数序列从而对持续图表进行矢量化，以便可以直接使用统计方法进行分析或者将其作为机器学习分类器的输入。

一个有限的持续图表是一个多重点集（“出现—消失”的点对），一个持续性景观是一个连续的分段线性函数序列 $\eta_1, \eta_2, \ldots, \eta_k$ ，其中 $\eta_k$ 被称为第 $k$ 个持续性景观函数。持续性景观函数 $\eta_k$ 是斜率为 0、1 或者 -1 的分段线性函数， $\eta_k$ 的临界点是斜率变化时的 $t$ 值。具体过程分为两步。

步骤一: 记录 PD 中每个点的坐标值为 $\{(b_1, d_1), \ldots, (b_n, d_n), i = 1, 2, \ldots, n\}$ ，其中 $b_i$ 代表相应的拓扑特征出现的时间点， $d_i$ 表示相应的拓扑特征消失的时间点。

步骤二: 将上述的每个点映射为 $u(x_i, y_i) = \left( \frac{b_i + d_i}{2}, \frac{d_i - b_i}{2} \right).$

根据映射后点 $u$ 的坐标，可以得到分段线性函数 $\Lambda_p: \mathbb{R} \to [0, \infty)$ ，具体形式为
$\Lambda_p(t) = \begin{cases} t - x + y, & t \in [x - y, x], \\ x + y - t, & t \in (x, x + y], \\ 0, & \text{otherwise}. \end{cases}$
即
$\Lambda_p(t) = \begin{cases} t - b, & t \in [b, \frac{b + d}{2}], \\ d - t, & t \in \left(\frac{b + d}{2}, d\right], \\ 0, & \text{otherwise}. \end{cases}$

通过上述对每一个点构造一个分段线性函数 $\Lambda_p$ 的方式就可以得到一系列方程，持续性景观的定义如式所示 $\eta(k, t) = k\max_p \Lambda_p(t), \quad t \in \mathbb{R}, \quad k \in \mathbb{N},$ 其中， $k\max_p$ 代表的是集合中第 $k$ 个最大值。

在这里插入图片描述

在这里插入图片描述
PL图右上角的 $\lambda_0$ 表示最大的， $\lambda_1$ 表示第二大的

持续图表对应的度量空间是不具有完备性的, 而持续性景观本身作为一个函数集合具备向量的空间结构, 因而可以在该空间内进行范数度量的定义以便进行统计分析. 持续性景观具有可逆的优点, 因而不会损失任何信息, 性质也比较稳定, 但是在持续性景观中对于方程个数的选取、均值的计算都相对繁琐。

问：PL得到的不也是二维坐标系上的函数图吗，它是怎么矢量化成特征？（回答来源于GPT）
持续图表通常包含一系列的点，每个点代表一个拓扑特征的出现和消失的维度。这些点不能直接用作机器学习模型的输入，因为它们不是数值向量。而持续性景观通过将这些点转化为分段线性函数，进一步将这些函数“展平”（flatten）成数值向量，从而可以作为特征输入。
在实际应用中，可能会遇到不同数据点的持续性景观函数数量不同，导致展平后的向量长度不一致的问题。为了解决这个问题，通常会使用零填充（zero padding）的方法，将所有向量展平到相同的长度，从而形成一个可以用于机器学习模型的统一大小的特征矩阵。这样，每个数据点的持续性景观都可以被转化为一个固定长度的数值向量

3、贝蒂曲线

贝蒂曲线(Betti Curve)是用来描述拓扑空间内不同维度下得到的同调群随着时间变化的函数。

给定一个持续图表 $𝐷 = \{(𝑏_𝑗, 𝑑_𝑗)\}_{𝑗∈𝐼}$ ，定义它关于持续图表的贝蒂曲线(Betti Curve)为映射: $𝐵_𝑛: 𝐼 → ℝ$ ，对于每一步 $i \in I$ ，返回的是包含 $i$ 的条数 $𝑏_𝑗, 𝑑_𝑗)$ 。即为

$𝐵_𝑛(𝑖) = \#{(𝑏_𝑗, 𝑑_𝑗), 𝑖 ∈ (𝑏_𝑗, 𝑑_𝑗)}.$

在这里插入图片描述

4、Wasserstein Distance和 Bottleneck Distance

在拓扑数据分析中, 持续图表是拓扑特征表示的常用形式, 而Wasserstein Distance[^18] 和 Bottleneck Distance[^18]则是比较持续图表之间差异的一种距离度量, 两个持续图表的 Wasserstein Distance是用Wasserstein度量计算它们之间的距离.

Wasserstein Distance(也称为 Earth Mover’s Distance)是一种用于测量两个概率分布之间差异的距离度量, 它考虑了将一种分布转换为另一种分布所需的最小代价。在拓扑数据分析中, 可将持续图表看作是一种分布, 每个点对应于持续图表中的一个拓扑特征(例如持续同调的连通分支或孔). 因此, 给定两个持续图表, 我们可以将它们转换为概率分布并计算它们之间的Wasserstein Distance从而度量它们之间的差异. Wasserstein Distance越小, 两个持续图表就越相似。
在这里插入图片描述

给定两个持续图表 $D, D^{'}$ ，定义二者的 $p$ -Wasserstein 距离为

$\inf_{\gamma:𝐷→𝐷′} \left( \sum_{u \in 𝐷} \|𝑢 − \gamma(𝑢)\|_\infty^𝑝 \right)^{\frac{1}{𝑝}},$

其中 $\leq 𝑝 \leq \infty$ 。当 $\infty$ 时，Wasserstein Distance 变为 Bottleneck Distance，即为

$𝑊_∞(𝐷, 𝐷′) = \inf_{\gamma:𝐷→𝐷′} \sup_{u \in 𝐷} \|𝑢 − \gamma(𝑢)\|_\infty,$

二者的距离越小, 表示两个 PD越接近.

问：计算两个PD之间的距离和矢量化有什么关系，如果有很多个PD可以得到一个距离矩阵，那如果只有一个PD呢？（gpt回答）
通过计算持续图表中点的分布与某些参考分布（如均匀分布、高斯分布）之间的Wasserstein Distance，可以将这些距离作为特征向量的组成部分。

5、持续性图像

持续性图像(Persistence Images, PI)是一种将 PD转换成向量的方法, 它同时还保持与原始 PD的可解释性。
具体来说, 假设有一个记录了PD中所有出现—消失坐标值(𝑥, 𝑦)的点集B, 给定一个线性变换𝑇: ℝ² → ℝ², 𝑇(𝑥, 𝑦) = (𝑥, 𝑦 − 𝑥). 其中称𝑦 − 𝑥为持续值, 它代表了持续特征的持续时间. 设𝑇(𝐵)是出生—持续坐标对的变换多重点集, 其中每一个点(𝑥, 𝑦) ∈ 𝐵对应于一个点于(𝑥, 𝑦 − 𝑥) ∈ 𝑇(𝐵).

设 $\phi_u$ : ℝ² → ℝ² 是均值为 $(u_x, u_y) \in ℝ^2$ 的可微概率密度函数. 通常情况下, 选择概率密度函数为均值是 $u$ , 方差是 $\sigma^2$ 高斯函数 $g (u)$ 。即

$\phi_u(x, y) = g_u(x, y) = \frac{1}{2\pi\sigma^2} e^{-\frac{(x-u_x)^2 + (y-u_y)^2}{2\sigma^2}}. \quad$

此外, 定义一个非负加权函数 $f$ : ℝ² → ℝ², 该函数沿水平轴方向为 0, 连续分段且可微. 加权函数是为了对上述不同的持续值 $(y - x)$ 赋予不同的权重, 且权重函数的选取也不是固定的, 权重函数中的超参数也是可以调整的. 通过权重函数与高斯函数, 就可以将 PD转化成平面上的标量函数. 具体定义如下.

定义 :给定一个持续图表 PD, 将其记作 B, 定义持续函数 $\rho_B$ : ℝ^2 → ℝ 为

$\rho_B(z) = \sum f(u)\phi_u(z). \quad 其中u∈T(B)$

该定义先进行子域离散化的操作, 继而在离散过程中对每个区域进行积分从而得到有限维向量. 具体来说, 在每个像素区域对函数进行积分, 将得到的积分数值视为每个像素区域的最终取值, 这样就得到一个数值矩阵的表征方式. 也可以视为在平面固定一个有 $n$ 个框(像素)的网格, 随后分配 $\rho_B$ 的积分给每个框.

定义：给定一个持续图表 PD, 将其记作 B, 定义持续性图像 PI为像素值 $I(\rho_B)_p = ∬_p \rho_B dydx$ 构成的矩阵.
PI 可以将不同的同调维度 PD 组合成单个对象, 假定在实验中关于不同维度同调 $H_0, H_1, … H_k$ 的 PD 已经计算得到, 那么可以分别将 $H_0, H_1, … H_k$ 的 PI 向量串联起来, 从而得到同时表示所有同调维度的单个 PI 向量, 该向量可进一步作为深度学习算法的输入. 在 PI 的生成过程中, 通常可调整的参数为: 概率密度函数(包含高斯函数的方差 $\sigma^2$ )、分辨率(积分区域的划分)、加权函数. 积分区域的划分决定着生成向量的大小, $n$ 越大，得到的向量越长, 细粒度信息越精细, 需要占用的存储空间也就越多。

在这里插入图片描述

持续性图像的优点有两个:

由于不同维度得到的持续性图像的表征形式是向量, 故可通过拼接的方式实现信息的聚合,并且该结果属于欧氏空间.
可以设置权重对持续性图像进行调整, 以强调最重要的特征.

6、加权轮廓

加权轮廓(Weight Silhouettes)是持续图表的矢量化方法之一，它是对持续性景观的加权平均。
给定一个非对角线元素个数为 $m$ 的持续图表 $\{(b_j, d_j)\}_{j \in I}$ 和一组正实数 $\omega = \{\omega_j\}_{j \in I}$ ，定义持续图表权重为 $w$ 的加权轮廓(Weight Silhouettes)映射 $\phi: \mathbb{R} \to \mathbb{R}$ 为
$\phi(t) = \frac{\sum_{j=1}^m \omega_j \Lambda_j(t)}{\sum_{j=1}^m \omega_j},$
其中 $\Lambda_P(t)$ 来源于持续性景观中定义。

定义：对于每个 $\leq \infty$ ，定义Power-Weighted Silhouette为式

$\phi(p)(t) = \frac{\sum_{j=1}^m |d_j - b_j|^p \Lambda_j(t)}{\sum_{j=1}^m |d_j - b_j|^p},$

其中，称 $p$ 为权衡参数，它在只考虑持续时间最长的点对和对持续图表中的点对统一处理之间进行权衡。若 $p$ 值较小，那么 $\phi^{(p)}(t)$ 中持续性时间较短的点对更多地影响最终取值，若 $p$ 值较大，那么 $\phi^{(p)}(t)$ 中持续时间较长的点对最终取值影响更大。

在这里插入图片描述

在加权轮廓中不同的权衡参数会有不同形状的“轮廓”. 当𝑝值较小时, 加权轮廓更强调持续图表中持续时间较短的点, 当𝑝值较大时, 加权轮廓更强调持续图表中持续时间较长的点.

7、热核

热核(Heat Kernel)是持续同调中描述数据拓扑特征的常用的方法之一, 其思想是: 对持续图表的每个点应用于标准差为𝜎的高斯函数核, 同时持续图表中每个关于对角线对称位置上的点应用于同标准差的负高斯函数核

原文地址：https://blog.csdn.net/qq_55675216/article/details/143077017

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：OPC UA与PostgreSQL如何实现无缝连接？
下一篇：如何使用python网络爬虫批量获取公共资源数据？

leetcode289:生命游戏
根据，简称为，是英国数学家约翰·何顿·康威在 1970 年发明的细胞自动机。给定一个包含m × n个格子的面板，每一个格子都可以看成是一个细胞。每个细胞都具有一个初始状态：1即为（live），或0即为
阅读更多2024-10-20
MongoDB数据恢复
注意：两个MongoDB的版本要一致，本文使用的是mongo:4.2.24。先把K8S上面的MongoDB 容器停止（可以把副本改成0）。1、将容器挂载MongoDB的数据目录备份到本地。经常是数据文
阅读更多2024-10-20
C#中实现事务
C#中实现事务
阅读更多2024-10-20
【LeetCode每日一题】——560.和为 K 的子数组
给你一个整数数组 nums 和一个整数 k ，请你统计并返回该数组中和为 k 的子数组的个数。子数组是数组中元素的连续非空序列。
阅读更多2024-10-20
「漏洞复现」满客宝智慧食堂系统 selectUserByOrgId 未授权访问漏洞
请勿利用文章内的相关技术从事非法测试，由于传播、利用此文所提供的信息而造成的任何直接或者间接的后果及损失，均由使用者本人负责，作者不为此承担任何责任。工具来自网络，安全性自测，如有侵权请联系删除。本次
阅读更多2024-10-20
React面试题目（从基本到高级）
React前端面试常见题目涵盖了React的基础概念、组件、状态管理、生命周期、性能优化等多个方面。
阅读更多2024-10-20
12.个人博客系统（Java项目基于spring和vue）
1 在校学习的学生，可用于日常学习使用或是毕业设计使用 2 毕业一到两年的开发人员，用于锻炼自己的独立功能模块设计能力，增强代码编写能力。 3 亦可以部署为商化项目使用。 4 需要完整资料及源码
阅读更多2024-10-20
YoloV8改进策略：注意力改进|DeBiFormer，可变形双级路由注意力|引入DeBiLevelRoutingAttention注意力模块（全网首发）
本次改进的核心在于将DeBiLevelRoutingAttention模块嵌入到YoloV8的主干网络中，具体位置是在SPPF（Spatial Pyramid Pooling Fast）模块之后。这一
阅读更多2024-10-20
word取消自动单词首字母大写
情况说明：在word输入单词后首字母会自动变成大写取消单词首字母大写步骤：（1）点击菜单栏文件（2）点击“更多”——>“选项”（3）点击“校对”——>“自动更正选项”（4）取消“句首字母大
阅读更多2024-10-20
web前端网页用户注册页面
【代码】web前端网页用户注册页面。
阅读更多2024-10-20

【TDA】持续同调的矢量化方法

1、持续同调熵

2、持续性景观

3、贝蒂曲线

4、Wasserstein Distance和 Bottleneck Distance

5、持续性图像

6、加权轮廓

7、热核

相关文章