概率基础——大数定律

🕗 发布于 2024-02-29 10:35 概率论 python

概率基础——大数定律

介绍

大数定律是概率论中的一个重要定理，它描述了随机变量序列的均值在概率意义下收敛于其数学期望的现象。简单来说，大数定律说明了当试验次数足够多时，样本平均值将逼近于总体均值。在实际应用中，大数定律为统计学和概率论提供了重要的理论基础，也是估计总体参数的一种重要方法。

理论及公式

弱大数定律

设 $X_1, X_2, \ldots, X_n$ 是相互独立、具有相同分布、且具有有限数学期望 $\mu$ 的随机变量序列，定义其样本平均为

$\overline{X}_n = \frac{1}{n} \sum_{i=1}^{n} X_i$

则对于任意正数 $\epsilon > 0$ ，有

$\lim_{n \to \infty} P(|\overline{X}_n - \mu| \geq \epsilon) = 0$

即样本平均 $\overline{X}_n$ 以概率1收敛于总体均值 $\mu$ 。

较强大数定律

设 $X_1, X_2, \ldots, X_n$ 是独立同分布的随机变量序列，且具有有限的数学期望 $\mu$ ，则对于任意正数 $\epsilon > 0$ ，有

$P(\lim_{n \to \infty} \overline{X}_n = \mu) = 1$

即样本平均 $\overline{X}_n$ 以概率1收敛于总体均值 $\mu$ 。

推导过程

弱大数定律的推导

我们使用切比雪夫不等式来证明弱大数定律。

由切比雪夫不等式：

$\mu| \geq k\sigma) \leq \frac{1}{k^2}$

将 $X$ 替换为样本平均 $\overline{X}_n$ ， $\mu$ 替换为总体均值 $\mu$ ， $\sigma$ 替换为样本平均的标准差 $\frac{\sigma}{\sqrt{n}}$

$P(|\overline{X}_n - \mu| \geq k \cdot \frac{\sigma}{\sqrt{n}}) \leq \frac{1}{k^2}$

当 $\to \infty$ 时，有 $\cdot \frac{\sigma}{\sqrt{n}} \to 0$ ，因此 $P(|\overline{X}_n - \mu| \geq \epsilon) \to 0$ ，即样本平均 $\overline{X}_n$ 概率1收敛于总体均值 $\mu$ 。

大数定律的推导

假设 $X_1, X_2, ..., X_n$ 是一组独立同分布的随机变量序列，它们的均值为 $\mu$ ，方差为 $\sigma^2$ 。令 $S_n = X_1 + X_2 + ... + X_n$ ，则 $S_n$ 的期望为 $n\mu$ ，方差为 $n\sigma^2$ 。

根据切比雪夫不等式，对于任意给定的正数 $\epsilon$ ，有：

$P(|S_n - n\mu| \geq n\epsilon) \leq \frac{n\sigma^2}{n^2\epsilon^2} = \frac{\sigma^2}{n\epsilon^2}$

令 $\to \infty$ ，则 $\frac{\sigma^2}{n\epsilon^2} \to 0$ 。因此，对于足够大的 $n$ ，有 $P(|S_n - n\mu| \geq n\epsilon) \to 0$ ，即：

$P(|S_n - n\mu| < n\epsilon) \to 1$

即样本的平均值 $\frac{S_n}{n}$ 在 $\to \infty$ 时以概率 $1$ 趋近于总体均值 $\mu$ 。

模拟大数定律的案例1

生成3组各15000个服从参数为（10，0.4）的二项分布变量，随机变量的期望 $n \times p$ =4，然后观察随着样本数目的增大，样本均值和实际分布期望之间的关系。

import numpy as np
from scipy.stats import binom
import matplotlib.pyplot as plt

n = 10
p = 0.4

sample_size = 15000
expected_value = n * p
N_samples = range(1, sample_size, 10)

for k in range(3):
    binom_rv =  binom(n, p)
    X = binom_rv.rvs(sample_size)
    sample_average = [X[: i].mean() for i in N_samples]
    plt.plot(N_samples, sample_average, label=f'average of sample {k}')
plt.plot(N_samples, expected_value * np.ones_like(sample_average), ls='--', label=f'true expected value:n*p={n * p}', c='k')
plt.ylim([3.0, 5.0])
plt.legend()
plt.grid()
plt.show()

在这里插入图片描述

设置了3个相同的试验组，从试验结果来看，在每一组试验中，随着样本数量逐渐增大，样本均值都会越来越收敛于随机变量的期望。

模拟大数定律的案例2

从大数定律的定义出发，先生成1000,000个服从均值0，标准差为20的正态分布的样本，依次进行3种不同的处理，并观察对应的3组分布。

import numpy as np
from scipy.stats import norm
import matplotlib.pyplot as plt

norm_rvs = norm(loc=0, scale=20).rvs(size=100000)
plt.hist(norm_rvs, density=True, alpha=0.5, bins=100, color='k', label='Original')

mean_array = []

for i in range(10000):
    sample = np.random.choice(norm_rvs, size=5, replace=False)
    mean_array.append(sample.mean())

plt.hist(mean_array, density=True, alpha=0.5, bins=100, color='r', label='sample size = 5')

for i in range(10000):
    sample = np.random.choice(norm_rvs, size=50, replace=False)
    mean_array.append(sample.mean())

plt.hist(mean_array, density=True, alpha=0.5, bins=100, color='g', label='sample size = 50')

plt.gca().axes.set_xlim(-60, 60)

plt.legend(loc='best')
plt.grid(ls='--')
plt.show()

该程序的样本规模比较大，运行时间会相对较长。
在这里插入图片描述

如图所示，原始正态分布的样本分布图像，分布呈现的高度最矮。从1000,000个原始正态分布样本中，每次随机选取5个数，计算它们的均值，重复操作10,000次，观察10,000个均值的分布，分布呈现的高度次之。
从1000,000个原始正态分布样本中，每次随机选取50个数，计算它们的均值，重复操作10,000次，观察10,000个均值的分布，分布呈现的高度最高。
从图中可以发现，随着每次选取的样本数量的增多，样本均值的图像越来越期望集中，佐证了大数定律。

结论

大数定律描述了随机变量序列的均值在概率意义下收敛于其数学期望的现象。通过概率不等式的推导，我们可以得到样本平均在概率1下收敛于总体均值的结论。在实际应用中，大数定律为统计学和概率论提供了重要的理论基础，也为估计总体参数提供了一种有效的方法。

原文地址：https://blog.csdn.net/weixin_39753819/article/details/136318979

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：【语音识别】- CTC损失计算的原理
下一篇：小白 | 零基础 | 转行 | 六个月 Java 学习路线

vue3 + element-plus 的 upload + axios + django 文件上传并保存
之前在网上搜了好多教程，一直没有找到合适自己的，要么只有前端部分没有后端，要么就是写的不是很明白。所以还得靠自己摸索出来后，来此记录一下整个过程。环境安装什么的就不讲了，直接上代码好吧，这个是样式图。
阅读更多2024-11-06
Cuebric：用AI重新定义3D创作的未来
Cuebric 是一家成立于2022年夏天的好莱坞创新公司，致力于为电影、电视、游戏和时尚等行业提供先进的AI多模态SaaS平台。自2024年1月正式推出以来，Cuebric 已经在市场上获得了广泛的
阅读更多2024-11-06
easyui+vue 数据表更新问题的解决
数据的增删改查可以实时刷新出来,不建议在封装组件。nextTick 保证DOM 渲染完成。
阅读更多2024-11-06
软件测试基础：单元测试与集成测试
单元测试和集成测试是软件测试的基础，它们的重要性不言而喻。通过对软件的不同部分进行有序的测试，可以提高软件质量、减少后期维护成本，保证软件的可靠性和稳定性。软件开发者和测试人员应当重视并深入理解单元测
阅读更多2024-11-06
RxJS基本介绍以及与Promise的区别
Promise 适合处理单一的异步操作，具有更简单的 API，但缺乏灵活性和对多值的支持。RxJS (Observable) 适合处理复杂的异步流和多事件流，具有更多的操作符、错误处理机制和强大的组合
阅读更多2024-11-06
第三节 Vim编辑器与Shell命令脚本
这里的脚本主要使用 ping 命令来测试与对方主机的网络连通性，而 Linux 系统中的 ping 命令不像 Windows 一样尝试 4 次就结束，因此为了避免用户等待时间过长，需要通过-c 参数来
阅读更多2024-11-06
【JavaEE初阶 — 多线程】线程安全问题＆ synchronized
【JavaEE初阶 — 多线程】线程安全问题＆ Synchronized观察线程安全问题，分析了造成线程安全问题造成的三个原因：线程的随机调度，多个线程修改共享数据（修改同一个变量），以及原子性问题
阅读更多2024-11-06
十月末补充（？
【代码】十月末补充（？
阅读更多2024-11-06
13-鸿蒙开发中的综合实战：华为登录界面
通过本文，你已经学会了如何在鸿蒙开发中实现一个简单的登录界面，涵盖了输入框组件、按钮组件、文本组件和布局容器的使用。这个实战项目不仅帮助你巩固了基础知识，还提供了一个实际的应用场景。希望这篇文章对你有
阅读更多2024-11-06
python全栈开发《59.集合的增删改》
目录1.集合的add函数2.集合的update函数3.集合的remove函数4.集合的clear函数5.用del删除集合6.重要说明7.代码1.集合的add函数1.1add的功能用于集合中添加一个元素
阅读更多2024-11-06

概率基础——大数定律