变分推断相关公式通俗理解
变分推断相关公式解析
变分推断的核心公式
变分推断是一种求解概率模型参数的方法,尤其在处理隐变量模型时表现出色。其核心在于通过最大化关于模型参数的对数边缘似然的下界(即ELBO)来估计参数。公式如下:
max θ E q ( z ∣ x ) [ log p ( x , z ) − log q ( z ∣ x ) ] \max_{\theta} \mathbb{E}_{q(\mathbf{z}|\mathbf{x})}[\log p(\mathbf{x}, \mathbf{z}) - \log q(\mathbf{z}|\mathbf{x})] θmaxEq(z∣x)[logp(x,z)−logq(z∣x)]
其中, θ \theta θ 是模型参数, x \mathbf{x} x 是观测数据, z \mathbf{z} z 是隐变量, p ( x , z ) p(\mathbf{x}, \mathbf{z}) p(x,z) 是联合分布, q ( z ∣ x ) q(\mathbf{z}|\mathbf{x}) q(z∣x) 是隐变量的后验分布的近似。
通俗解释:
变分推断就像是一个侦探在解决一起案件。侦探的目标(即最大化ELBO)是找到最有可能的解释(即模型参数),来解释所有观察到的线索(即观测数据)。在这个过程中,侦探会考虑所有可能的隐藏情节(即隐变量),并尝试找到一个最合理的解释来连接这些线索和隐藏情节。具体来说:
项目 | 描述 |
---|---|
侦探目标 | 侦探的目标是找到最有可能的解释(模型参数),这个解释能够最大化所有线索(观测数据)和隐藏情节(隐变量)的联合概率与隐藏情节自身概率之差的期望值。 |
考虑所有隐藏情节 | 侦探会考虑所有可能的隐藏情节(通过 q ( z 竖线 x ) q(\mathbf{z}竖线\mathbf{x}) q(z竖线x)),并尝试找到与观察到的线索最匹配的解释。 |
联合概率与近似概率之差 | 侦探评估的是,给定模型参数和隐藏情节时,线索和隐藏情节联合出现的概率( p ( x , z ) p(\mathbf{x}, \mathbf{z}) p(x,z)),与仅基于线索推测隐藏情节出现的概率( q ( z 竖线 x ) q(\mathbf{z}竖线\mathbf{x}) q(z竖线x))之间的差异。这个差异反映了模型参数的好坏。 |
参数与数据的交互 | 侦探会根据当前的模型参数( θ \theta θ)和线索( x \mathbf{x} x)来推测隐藏情节( z \mathbf{z} z)。然后,根据这个推测和线索来评估模型参数的好坏,并不断更新模型参数,直到找到最合理的解释。 |
过程推导如下:
变分推断的核心是最大化ELBO,即对数边缘似然的下界。下面我将详细解释这个公式的推导过程。
-
对数边缘似然:
首先,考虑观测数据 x \mathbf{x} x的边缘似然 p ( x ) p(\mathbf{x}) p(x),它可以表示为:
p ( x ) = ∫ p ( x , z ) d z p(\mathbf{x}) = \int p(\mathbf{x}, \mathbf{z}) d\mathbf{z} p(x)=∫p(x,z)dz
其中, p ( x , z ) p(\mathbf{x}, \mathbf{z}) p(x,z)是观测数据 x \mathbf{x} x和隐变量 z \mathbf{z} z的联合分布。 -
引入近似后验分布:
由于直接计算边缘似然通常很困难,我们引入一个近似后验分布 q ( z ∣ x ) q(\mathbf{z}|\mathbf{x}) q(z∣x)来辅助计算。根据Jensen不等式,我们可以得到对数边缘似然的一个下界(即ELBO):
log p ( x ) ≥ E q ( z ∣ x ) [ log p ( x , z ) − log q ( z ∣ x ) ] \log p(\mathbf{x}) \geq \mathbb{E}_{q(\mathbf{z}|\mathbf{x})}[\log p(\mathbf{x}, \mathbf{z}) - \log q(\mathbf{z}|\mathbf{x})] logp(x)≥Eq(z∣x)[logp(x,z)−logq(z∣x)] -
最大化ELBO:
我们的目标是找到能够最大化这个下界的模型参数 θ \theta θ,即:
max θ E q ( z ∣ x ) [ log p ( x , z ) − log q ( z ∣ x ) ] \max_{\theta} \mathbb{E}_{q(\mathbf{z}|\mathbf{x})}[\log p(\mathbf{x}, \mathbf{z}) - \log q(\mathbf{z}|\mathbf{x})] θmaxEq(z∣x)[logp(x,z)−logq(z∣x)]
通过不断优化这个下界,我们可以逐渐逼近真实的边缘似然,并找到最合适的模型参数。
综上所述,变分推断是通过最大化对数边缘似然的下界来估计概率模型参数的一种方法。它巧妙地引入了近似后验分布来辅助计算,并通过不断优化下界来逼近真实的边缘似然。
关键词:变分推断、ELBO、隐变量模型、Jensen不等式、对数边缘似然。
Keywords: variational inference, ELBO, latent variable model, Jensen’s inequality, log marginal likelihood.
原文地址:https://blog.csdn.net/qq_37148940/article/details/140619113
免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!