自学内容网 自学内容网

概率基础——大数定律

概率基础——大数定律

介绍

大数定律是概率论中的一个重要定理,它描述了随机变量序列的均值在概率意义下收敛于其数学期望的现象。简单来说,大数定律说明了当试验次数足够多时,样本平均值将逼近于总体均值。在实际应用中,大数定律为统计学和概率论提供了重要的理论基础,也是估计总体参数的一种重要方法。

理论及公式

弱大数定律

X 1 , X 2 , … , X n X_1, X_2, \ldots, X_n X1,X2,,Xn是相互独立、具有相同分布、且具有有限数学期望 μ \mu μ的随机变量序列,定义其样本平均为

X ‾ n = 1 n ∑ i = 1 n X i \overline{X}_n = \frac{1}{n} \sum_{i=1}^{n} X_i Xn=n1i=1nXi

则对于任意正数 ϵ > 0 \epsilon > 0 ϵ>0,有

lim ⁡ n → ∞ P ( ∣ X ‾ n − μ ∣ ≥ ϵ ) = 0 \lim_{n \to \infty} P(|\overline{X}_n - \mu| \geq \epsilon) = 0 nlimP(Xnμϵ)=0

即样本平均 X ‾ n \overline{X}_n Xn以概率1收敛于总体均值 μ \mu μ

较强大数定律

X 1 , X 2 , … , X n X_1, X_2, \ldots, X_n X1,X2,,Xn是独立同分布的随机变量序列,且具有有限的数学期望 μ \mu μ,则对于任意正数 ϵ > 0 \epsilon > 0 ϵ>0,有

P ( lim ⁡ n → ∞ X ‾ n = μ ) = 1 P(\lim_{n \to \infty} \overline{X}_n = \mu) = 1 P(nlimXn=μ)=1

即样本平均 X ‾ n \overline{X}_n Xn 以概率1收敛于总体均值 μ \mu μ

推导过程

弱大数定律的推导

我们使用切比雪夫不等式来证明弱大数定律。

由切比雪夫不等式:

P ( ∣ X − μ ∣ ≥ k σ ) ≤ 1 k 2 P(|X - \mu| \geq k\sigma) \leq \frac{1}{k^2} P(Xμ)k21

X X X替换为样本平均 X ‾ n \overline{X}_n Xn μ \mu μ替换为总体均值 μ \mu μ σ \sigma σ替换为样本平均的标准差 σ n \frac{\sigma}{\sqrt{n}} n σ

P ( ∣ X ‾ n − μ ∣ ≥ k ⋅ σ n ) ≤ 1 k 2 P(|\overline{X}_n - \mu| \geq k \cdot \frac{\sigma}{\sqrt{n}}) \leq \frac{1}{k^2} P(Xnμkn σ)k21

n → ∞ n \to \infty n 时,有 k ⋅ σ n → 0 k \cdot \frac{\sigma}{\sqrt{n}} \to 0 kn σ0,因此 P ( ∣ X ‾ n − μ ∣ ≥ ϵ ) → 0 P(|\overline{X}_n - \mu| \geq \epsilon) \to 0 P(Xnμϵ)0,即样本平均 X ‾ n \overline{X}_n Xn概率1收敛于总体均值 μ \mu μ

大数定律的推导

假设 X 1 , X 2 , . . . , X n X_1, X_2, ..., X_n X1,X2,...,Xn是一组独立同分布的随机变量序列,它们的均值为 μ \mu μ,方差为 σ 2 \sigma^2 σ2。令 S n = X 1 + X 2 + . . . + X n S_n = X_1 + X_2 + ... + X_n Sn=X1+X2+...+Xn,则 S n S_n Sn的期望为 n μ n\mu nμ,方差为 n σ 2 n\sigma^2 nσ2

根据切比雪夫不等式,对于任意给定的正数 ϵ \epsilon ϵ,有:

P ( ∣ S n − n μ ∣ ≥ n ϵ ) ≤ n σ 2 n 2 ϵ 2 = σ 2 n ϵ 2 P(|S_n - n\mu| \geq n\epsilon) \leq \frac{n\sigma^2}{n^2\epsilon^2} = \frac{\sigma^2}{n\epsilon^2} P(Snnμnϵ)n2ϵ2nσ2=nϵ2σ2

n → ∞ n \to \infty n,则 σ 2 n ϵ 2 → 0 \frac{\sigma^2}{n\epsilon^2} \to 0 nϵ2σ20。因此,对于足够大的 n n n,有 P ( ∣ S n − n μ ∣ ≥ n ϵ ) → 0 P(|S_n - n\mu| \geq n\epsilon) \to 0 P(Snnμnϵ)0,即:

P ( ∣ S n − n μ ∣ < n ϵ ) → 1 P(|S_n - n\mu| < n\epsilon) \to 1 P(Snnμ<nϵ)1

即样本的平均值 S n n \frac{S_n}{n} nSn n → ∞ n \to \infty n时以概率 1 1 1趋近于总体均值 μ \mu μ

模拟大数定律的案例1

生成3组各15000个服从参数为(10,0.4)的二项分布变量,随机变量的期望 n × p n×p n×p=4,然后观察随着样本数目的增大,样本均值和实际分布期望之间的关系。

import numpy as np
from scipy.stats import binom
import matplotlib.pyplot as plt

n = 10
p = 0.4

sample_size = 15000
expected_value = n * p
N_samples = range(1, sample_size, 10)

for k in range(3):
    binom_rv =  binom(n, p)
    X = binom_rv.rvs(sample_size)
    sample_average = [X[: i].mean() for i in N_samples]
    plt.plot(N_samples, sample_average, label=f'average of sample {k}')
plt.plot(N_samples, expected_value * np.ones_like(sample_average), ls='--', label=f'true expected value:n*p={n * p}', c='k')
plt.ylim([3.0, 5.0])
plt.legend()
plt.grid()
plt.show()

在这里插入图片描述

设置了3个相同的试验组,从试验结果来看,在每一组试验中,随着样本数量逐渐增大,样本均值都会越来越收敛于随机变量的期望。

模拟大数定律的案例2

从大数定律的定义出发,先生成1000,000个服从均值0,标准差为20的正态分布的样本,依次进行3种不同的处理,并观察对应的3组分布。

import numpy as np
from scipy.stats import norm
import matplotlib.pyplot as plt

norm_rvs = norm(loc=0, scale=20).rvs(size=100000)
plt.hist(norm_rvs, density=True, alpha=0.5, bins=100, color='k', label='Original')

mean_array = []

for i in range(10000):
    sample = np.random.choice(norm_rvs, size=5, replace=False)
    mean_array.append(sample.mean())

plt.hist(mean_array, density=True, alpha=0.5, bins=100, color='r', label='sample size = 5')

for i in range(10000):
    sample = np.random.choice(norm_rvs, size=50, replace=False)
    mean_array.append(sample.mean())

plt.hist(mean_array, density=True, alpha=0.5, bins=100, color='g', label='sample size = 50')

plt.gca().axes.set_xlim(-60, 60)

plt.legend(loc='best')
plt.grid(ls='--')
plt.show()

该程序的样本规模比较大,运行时间会相对较长。
在这里插入图片描述

如图所示,原始正态分布的样本分布图像,分布呈现的高度最矮。从1000,000个原始正态分布样本中,每次随机选取5个数,计算它们的均值,重复操作10,000次,观察10,000个均值的分布,分布呈现的高度次之。
从1000,000个原始正态分布样本中,每次随机选取50个数,计算它们的均值,重复操作10,000次,观察10,000个均值的分布,分布呈现的高度最高。
从图中可以发现,随着每次选取的样本数量的增多,样本均值的图像越来越期望集中,佐证了大数定律。

结论

大数定律描述了随机变量序列的均值在概率意义下收敛于其数学期望的现象。通过概率不等式的推导,我们可以得到样本平均在概率1下收敛于总体均值的结论。在实际应用中,大数定律为统计学和概率论提供了重要的理论基础,也为估计总体参数提供了一种有效的方法。


原文地址:https://blog.csdn.net/weixin_39753819/article/details/136318979

免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!