随机采样之接受拒绝采样

🕗 发布于 2024-11-08 16:26 概率论

之前提到的逆变换采样（Inverse Transform Sampling）是一种生成随机样本的方法，它利用累积分布函数（CDF）的逆函数来生成具有特定分布的随机变量。以下是逆变换采样的缺点：

计算复杂性：对于某些分布，找到累积分布函数（CDF）的逆函数可能是困难的，甚至是不可能的。
效率问题：对于具有重尾分布的随机变量，逆变换采样可能非常低效，因为CDF的逆可能需要大量的计算。
数值稳定性：在数值计算中，由于浮点数的精度限制，逆变换采样可能会引入误差，尤其是在CDF的值接近1时。

一、接受拒绝采样

接受-拒绝采样（Accept-Reject Sampling）方法是一种更为通用的采样方法，它可以用来生成具有任意分布的随机样本。这种方法不要求我们知道CDF的逆，而是利用一个简单的概率分布（称为提议分布）来生成样本，然后以一定的概率接受或拒绝这些样本。

接收-拒绝采样的基本步骤：

选择提议分布 $g (x)$ ：选择一个容易从中抽样的分布 $g (x)$ ，并且确保对于所有的 $x$ ，有 $\leq M \cdot g(x)$ ，其中 $f (x)$ 是目标分布， $M$ 是一个正常数。
抽样：从提议分布 $g (x)$ 中抽取样本 $x$ 和从均匀分布 $U (0, 1)$ 中抽取样本 $u$ 。
接受-拒绝条件：如果 $\leq \frac{f(x)}{M \cdot g(x)}$ ，则接受 $x$ 作为目标分布 $f (x)$ 的一个样本；否则拒绝 $x$ 。

接受拒绝采样可以使用下图进行表示（图片来源：【数之道】马尔可夫链蒙特卡洛方法是什么？十五分钟理解这个数据科学难点）。
在这里插入图片描述

二、接受拒绝采样证明

要证明接收-拒绝采样确实产生服从目标分布 $f (x)$ 的样本，我们需要证明对于所有的 $x$ ，有：
$f(x)\tag1$

其中 $P (X = x)$ 是样本 $x$ 被接受的概率。

证明：

接受概率：样本 $x$ 被接受的概率是 $\frac{f(x)}{M \cdot g(x)}$ ，因为 $u$ 是从 $U (0, 1)$ 中抽取的。
联合概率：样本 $x$ 从提议分布 $g (x)$ 中抽取的概率是 $g (x)$ ，并且 $u$ 在 $\frac{f(x)}{M \cdot g(x)})$ 区间的概率是 $\frac{f(x)}{M \cdot g(x)}$ 。因此，联合概率是：

$\leq \frac{f(x)}{M \cdot g(x)}) = g(x) \cdot \frac{f(x)}{M \cdot g(x)} = \frac{f(x)}{M}\tag2$
边缘概率：现在我们需要计算 $X$ 的边缘概率 $P (X = x)$ ，即样本 $x$ 被接受的总概率。由于 $u$ 是均匀分布的，我们可以将联合概率在 $u$ 的所有可能值上积分：

$\int_0^1 P(X=x, U=u) \, du = \int_0^1 \frac{f(x)}{M} \, du = \frac{f(x)}{M} \cdot \int_0^1 du = \frac{f(x)}{M}\tag3$
归一化常数：由于 $M$ 是使得 $\leq M \cdot g(x)$ 对所有 $x$ 成立的最小常数，我们可以将上式中的 $M$ 移到 $f (x)$ 的定义中，从而得到：

$f(x)\tag4$
这就证明了接收-拒绝采样确实产生了服从目标分布 $f (x)$ 的样本。

三、接受拒绝采样模拟

借用作者anshuai_aw1的例子，设我们需要采样的pdf为：
$\exp \left(-(x-0.3)^{2}\right)+0.7 \exp \left(-(x-2)^{2} / 0.3\right)\tag5$
其归一化常数为 $Z = 1.2113$ , 参考分布为 $=N(\mu=1.4,\sigma^2=(1.2^2))$ , $M = 2.5$ , 以确保 $\cdot g(x) \geq f(x)$ 。采样的代码如下：

import numpy as np
import matplotlib.pyplot as plt

def f(x):
    return (0.3*np.exp(-(x-0.3)**2) + 0.7* np.exp(-(x-2.)**2/0.3))/1.2113
x = np.arange(-4.,6.,0.01)
plt.plot(x,f(x),color = "red")

size = int(1e+07)
mu = 1.4
sigma = 1.2
M = 2.5

x = np.random.normal(loc = mu,scale = sigma, size = size)
g_x = 1/(np.sqrt(2*np.pi)*sigma)*np.exp(-0.5*(x-mu)**2/sigma**2)
u = np.random.uniform(low = 0, high = M*g_x, size = size)  #在[0,M*g_x]中均匀采样
fx =  0.3*np.exp(-(x-0.3)**2) + 0.7* np.exp(-(x-2.)**2/0.3)
sample = x[u <= fx] # u < fx(x)
plt.hist(sample,bins=150, density=True, edgecolor='black')
plt.show()

结果如下，其中红色曲线的是公式(5)所示pdf的图像，蓝色区域是采样结果，可见采样结果跟真实分布几乎一致。
在这里插入图片描述

参考资料：

[1]【数之道】马尔可夫链蒙特卡洛方法是什么？十五分钟理解这个数据科学难点
[2] 逆采样(Inverse Sampling)和拒绝采样(Reject Sampling)原理详解

原文地址：https://blog.csdn.net/u011426016/article/details/143592888

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：云计算答案
下一篇：【人工智能】ChatGPT多模型感知态识别

【已为网站上传证书,却显示不安全】
【已为网站上传证书,却显示不安全】
阅读更多2024-11-16
Jtti：服务器总是自动重启怎么办?
1.查看系统日志：通过查看系统日志文件(如/var/log/syslog、/var/log/messages或Windows Event Viewer)获取错误信息，找出重启原因。解决方案：查看系统日
阅读更多2024-11-16
Scala的Array(1)
Scala的Array表示长度不可变的数组，若需要定义可变数组需要倒包。
阅读更多2024-11-16
Scala中的Array
Array是一种在Scala中用于存储固定大小，相同类型元素的数据结构，Array是可变。类型有两种：Array表示长度不可变的数组，和ArrayBuffer表示长度可变的数组。(一)Array的定义
阅读更多2024-11-16
llama factory lora 微调 qwen2.5 7B Instruct模型
项目背景甲方提供一台三卡4080显卡需要进行qwen2.5 7b Instruct模型进行微调。以下为整体设计。要使用对进行，流程与之前提到的模型类似。LoRA 微调是一种高效的微调方法，通过低秩
阅读更多2024-11-16
大数据中的时序数据，以及时序数据架构设计解决方案
时序数据架构设计需根据具体的应用场景、数据量和实时性要求来选择合适的方案。如果数据量较小且不需要实时处理，关系型数据库可能足够；如果数据量大且需要高效实时查询，可以选择时序数据库；而对于大规模分布式处
阅读更多2024-11-16
Linux网络——网络初识
在谈及网络之前，我们要先对学的知识有一个了解网络的本质就是获取数据，而系统的本质就是加工数据。
阅读更多2024-11-16
革新预测领域：频域融合时间序列预测，深度学习新篇章，科研涨点利器
2024发论文&模型涨点之——频域+时间序列频域+时间序列不仅能提供更丰富的信息，还能提高模型性能和预测准确性。对于论文er来说，是个可发挥空间大、可挖掘创新点多的研究方向。当前，学术界的目光
阅读更多2024-11-16
本地启动浏览器，并禁用web安全性，解决本地启动时，服务端强制要求https协议导致请求不通的问题
本地启动浏览器，并禁用web安全性，解决本地启动时，服务端强制要求https协议导致请求不通的问题
阅读更多2024-11-16
推荐一款来自韩国的影音全能播放器：KMPlayer播放器
来自韩国的影音全能播放器，与Mplayer一样从linux平台移植而来的Kmplayer(简称KMP)几乎可以播放您系统上所有的影音文件。通过各种插件扩展KMP可以支持层出不穷的新格式。强大的插件功能
阅读更多2024-11-16

随机采样之接受拒绝采样

一、接受拒绝采样

二、接受拒绝采样证明

证明：

三、接受拒绝采样模拟

参考资料：

相关文章