为什么样本方差（sample variance）的分母是 n-1？

🕗 发布于 2024-07-24 19:47 概率论 机器学习 numpy

样本均值与样本方差的定义

首先来看一下均值，方差，样本均值与样本方差的定义
总体均值的定义：
$\mu=\frac{1}{n}\sum_{i=1}^{n} X_i$
也就是将总体中所有的样本值加总除以个数，也可以叫做总体的数学期望或简称期望

总体方差的定义：
$\sigma ^2=\frac {1}{n}\sum_{i=1}^{n} (X_i-\mu)^2$
总体中全部样本各数值与总体均值差的平方和的平均数，用来衡量随机变量或一组数据离散程度的度量。

在实际应用中，我们一般是拿不到总体的均值与总体的方差，只能通过抽样得到的样本均值与样本方差来估计总体的均值与方差。于是我们就得到了样本均值和样本方差：
样本均值的定义
$\bar {X}=\frac{1}{n}\sum_{i=1}^{n} X_i$

样本方差的定义
$S^2=\frac{1}{n-1} \sum_{i=1}^{n} (X_i - \bar X)^2$

对比总体方差的公式，样本方差的公式的系数为什么变为了 $\frac{1}{n-1}$ ？

通俗理解-自由度

一个比较通俗的的理解就是自由度,可以理解为对应的独立信息量。样本均值和样本方差就是抽样后把所有的独立的信息量（这里的独立的信息量就是数值，包含了均值和方差的信息）平均得到,在计算样本方差时用 $\bar X$ 替代了总体均值 $\mu$ ,自由度减少了一个。

假设只采样了两个样本 $X_1，X_2$ ，这其中的信息量是多少呢？方差是计算样本之间的偏离程度，所以一个独立有效的信息量就是这个数值减去均值。在计算方差时分子有两项： $(X_1-\bar X)^2$ 和 $(X_2-\bar X)^2$ . 要算第一个样本的偏离程度，毋庸置疑只能老老实实算 $(X_1-\bar X)$ ；但是，第二个样本呢？计算 $(X_2-\bar X)$ 吗？其实还有另外一种方法，因为 $\bar X=\frac{X_1+X_2}{2}$ ， $X_1$ 和 $X_2$ 其实是对于 $\bar X$ 对称的。所以其实 $(X_2-\bar X)=(2\bar X-X_1-\bar X)=-(X_1-\bar X)$ 。也就是我们在用样本均值 $\bar X$ 替代总体均值后，只要 $X_1$ 确定了之后， $X_2$ 是可以根据 $X_1$ 推出来具体数值的，实际能够有效提供样本到 $\bar X$ 的偏移量的信息数只有一条 $X_1$ 。

我们对这种现象可以有一个表述：就是 $(X_2-\bar X)$ 是不自由的，因为从之前的式子可以推出它。当然，对称地，我们也可以说 $(X_1-\bar X)$ 是不自由的。总之，这两个式子当中，只有一个是自由的，所以我们称这两个式子的自由度为 1.所以在两个样本求方差的时候要除1，应为实际应用到方差计算种的只有 $(X_1-\bar X)$ 这一个有效信息。

同样，将样本数增加至三个，当有两个样本 $X_1，X_2$ 并且知道 $\bar X$ 的情况下，我们就可以推出第三个样本 $X_3$ 的值，对应的自由度为 2.

以此类推，当我们有 $n$ 个样本的时候，其自由度为 $n - 1$ .也就是说，当我们有 $n$ 个样本的时候，我们虽然看起来在分子上做了 $n$ 个减法，但实际上我们只算出了 $n - 1$ 个偏差量。因此，做平均的时候，要除以的分母就是 $n - 1$

但是，为什么 n 个减法做完，自由度只有 n - 1？是谁从中搞鬼，偷走了一个自由度？答案很简单，是 $\bar X$ 。注意在总体方差中，隐含的分布均值是 $\mu$ ，这个均值是知道了总体的分布后计算出来的，而在样本方差中 $\mu$ 是未知的，所以在估计方差之前，我们会需要先找一个 $\mu$ 的代替，也就是 $\bar X$ ，而 $\bar X$ 是根据样本算出来的. 也就是说，在用 $\bar X$ 代替 $\mu$ 的过程中，我们损失了一个自由度。

那么，如果问题的背景变了，我们知道隐含的分布均值 $\mu$ ，只是不知道 $\sigma^2$ ，那我们该如何估计 $\sigma^2$ ？这种情况下求方差就变成了符合直觉的 $\frac{(X_1-\mu)^2+(X_2-\mu)^2+\dots+(X_n-\mu)^2}{n}$ 。

严密推导过程

估计量的评选标准

当我们用抽样的方法去估计总体时，总是希望每次抽样的结果尽可能的靠近实际的总体评估量，同时抽取的样本越多时越接近实际的总体评估量。对于评估量的好坏有如下三个评价指标

无偏性

设 $\theta$ 是总体的未知参数， $X_1,X_2,.....X_n$ 是总体的一个样本， $\widehat \theta$ 是参数的一个估计量，若
$E(\widehat \theta)=\theta$
则称 $\widehat \theta$ 是 $\theta$ 的一个无偏估计量
无偏性简单来说就是取样后得到的估计量 $\widehat \theta$ 的期望就等于总体的估计量。

考虑如下一个打靶的例子。如果有一个射击高手打靶，那么结果总会在靶心附近(总体期望 $\theta$ )，那么我们一般会通过打靶结果（也就是样本 $\widehat \theta$ ）认为这是一个熟练的射击手，对于多次的打靶结果我们对其打靶结果的期望是靶心( $E(\widehat \theta)=\theta$ ),也就是无偏的。
在这里插入图片描述

但如果出现了如下这种结果，通过这些样本我们就会猜测集中在一点附近可能是一个射击高手，这个偏差可能是由于瞄准镜歪了这种导致的呢
在这里插入图片描述

对于这种稳定影响结果的因素导致的偏差称为系统偏差，也就是 $E(\widehat \theta)-\theta$ 。无偏估计的实际意义就是无系统偏差。很明显无偏估计更接近实际的总体统计量

有效性

若 ${\widehat \theta}_1$ 和 ${\widehat \theta}_2$ 都是样本 $X_1,X_2,.....X_n$ 的无偏估计量，若对于任意取值范围里有 $D({\widehat \theta}_1) \le D({\widehat \theta}_2)$ ,
则 ${\widehat \theta}_1$ 比 ${\widehat \theta}_2$ 更加有效。
有效性就是同样无偏的估计量，更集中，方差更小的估计量更好
接着考虑如下打靶结果，虽然期望都是靶心，但是很明显后面的结果更加集中，相应的评估效果也会更好
在这里插入图片描述

相合性

之前的无偏性和一致性都是在样本容量固定为n的情况下讨论的，而如果样本容量越来越多时，一个估计量能稳定于待估的参数真值
相合性大样本条件下，估计值等于实际值.对于任意 $\theta >0$ ,有
$\lim\limits_{n\to\infty}P\left(|\hat\theta-\theta| < \varepsilon\right)=1.$

推导

首先来看一下在分母为n的情况下样本方差是不是总体方差的无偏估计量：
$\begin{aligned} E(S^2) &= E \left [ \frac{1}{n} \sum_{i=1}^{n} (X_i - \bar X)^2 \right ] \\ &= E \left [ \frac{1}{n} \sum_{i=1}^{n} \Bigg( (X_i - \mu)-(\bar X - \mu) \Bigg)^2 \right ] \\ &= E \left [ \frac{1}{n} \sum_{i=1}^{n} \Bigg( (X_i - \mu)^2-2(X_i - \mu)(\bar X - \mu)+(\bar X - \mu)^2 \Bigg) \right ] \\ &= E \left [ \frac{1}{n} \sum_{i=1}^{n} (X_i - \mu)^2- \frac{2}{n} (\bar X - \mu) \sum_{i=1}^{n}(X_i - \mu)+ \frac{1}{n} (\bar X - \mu)^2 \sum_{i=1}^{n} 1 \right ] \\ &= E \left [ \frac{1}{n} \sum_{i=1}^{n} (X_i - \mu)^2- \frac{2}{n} (\bar X - \mu) \sum_{i=1}^{n}(X_i - \mu)+ (\bar X - \mu)^2 \right ] \end{aligned}$

其中
$\bar X - \mu=\frac{1}{n}\sum_{i=1}^{n} X_i-\frac{1}{n}\sum_{i=1}^{n} \mu=\frac{1}{n}\sum_{i=1}^{n} (X_i-\mu)$

接着计算有：
$\begin{aligned} E(S^2) &= E \left [ \frac{1}{n} \sum_{i=1}^{n} (X_i - \mu)^2- \frac{2}{n} (\bar X - \mu) \sum_{i=1}^{n}(X_i - \mu)+ (\bar X - \mu)^2 \right ] \\ &= E \left [ \frac{1}{n} \sum_{i=1}^{n} (X_i - \mu)^2- \frac{2}{n} (\bar X - \mu) \cdot n \cdot (\bar X - \mu)+ (\bar X - \mu)^2 \right ] \\ &= E \left [ \frac{1}{n} \sum_{i=1}^{n} (X_i - \mu)^2- (\bar X - \mu)^2 \right ] \\ &= E \left [ \frac{1}{n} \sum_{i=1}^{n} (X_i - \mu)^2 \right ]- E \bigg [(\bar X - \mu)^2 \bigg ] \\ &= \sigma^2-E \bigg [(\bar X - \mu)^2 \bigg ] \end{aligned}$
可以看到同样在除以 $n$ 的情况下只有当 $\bar X = \mu$ 时才有 $E(S^2)= \sigma^2$ ,在其他情况下 $E(S^2)$ 都是小于 $\sigma^2$ 的。这一个结果也很好理解，只要样本均值 $\bar X$ 越偏离总体均值 $\mu$ ，样本也就越偏离总体均值。

请添加图片描述
接下来就是要计算出差异 $\bigg [(\bar X - \mu)^2 \bigg ]$ 是多少
由
$E(\bar{X}) = E\bigg(\frac{1}{n} \sum_{i=1}^{n} X_i\bigg) = \frac{1}{n}\sum_{i=1}^nE(X_i) = \frac{1}{n}\sum_{i=1}^n \mu = \mu$
$D(aX_i) = a^2 D(X_i)$
代入有：
$\begin{aligned} E \bigg [(\bar X - \mu)^2 \bigg ] &= E \bigg [(\bar X - E(\bar{X}))^2 \bigg ] \\ &=D(\bar{X})\\ &=D\bigg(\frac{1}{n} \sum_{i=1}^{n} X_i\bigg)\\ &=\frac{1}{n^2} \sum_{i=1}^{n} D(X_i) \\ &=\frac{1}{n^2} \cdot n \sigma^2 \\ &=\frac{\sigma^2}{n} \end{aligned}$
所以
$E(S^2) = \sigma^2-E \bigg [(\bar X - \mu)^2 \bigg ] =\frac{n-1}{n}\sigma^2$

进行一下调整，即有
$\frac{n}{n-1}E(S^2)=\frac{n}{n-1} E \left [ \frac{1}{n} \sum_{i=1}^{n} (X_i - \bar X)^2 \right ]=E \left [ \frac{1}{n-1} \sum_{i=1}^{n} (X_i - \bar X)^2 \right ]=\sigma^2$

这样得到的就是无偏的估计

https://www.zhihu.com/question/20099757
https://www.zhihu.com/question/22983179

原文地址：https://blog.csdn.net/qq_42692386/article/details/137955127

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：【概率论】第一章：概率论基本概念
下一篇：使用Spring Boot和OpenAPI构建RESTful API文档化系统

【循环神经网络】
RNN是一种强大的序列建模工具，适合处理各种时间序列和自然语言数据。然而，传统RNN在处理长序列时存在梯度消失问题，随着LSTM和GRU等改进模型的引入，RNN的性能得到了极大提升。无论是在自然语言处
阅读更多2024-11-17
Linux---shell脚本
希望通过本文的学习，你能够掌握Shell脚本的基本知识和实用技巧，将Shell脚本融入到你的日常工作中，成为你提高工作效率、实现自动化任务的得力助手。让我们一起踏上这段探索Shell脚本的旅程，开启一
阅读更多2024-11-17
Linux-DNS
Linux中配置DNS服务，包括DNS工作流程、配置等、以及其他的一些需要注意的配置文件
阅读更多2024-11-17
DLL注入
在DLL注入的时候，起的是远程的线程在上面的参数中，lpStartAddress就是线程的函数，使用LoadLibrary的地址作为线程函数的地址，这样我们就可以用LoadLibrary来起lpPar
阅读更多2024-11-17
力扣62.不同路径
所以有从左上角到右下角的过程中，我们需要移动 m+n−2 次，其中有 m−1 次向下移动，n−1 次向右移动。由于我们每一步只能从向下或者向右移动一步，因此要想走到 (i,j)，如果向下走一步，那么
阅读更多2024-11-17
【JAVA毕业设计】基于Vue和SpringBoot的冬奥会科普平台
本文首先介绍了冬奥会科普管理的技术发展背景与发展现状，然后遵循软件常规开发流程，首先针对平台选取适用的语言和开发平台，根据需求分析制定模块并设计数据库结构，再根据平台总体功能模块的设计绘制平台的功能模
阅读更多2024-11-17
基于Spring Boot的电商系统开发策略
现代经济快节奏发展以及不断完善升级的信息化技术，让传统数据信息的管理升级为软件存储，归纳，集中处理数据信息的管理方式。网上商城系统的设计方案比如功能框架的设计，比如数据库的设计的好坏也就决定了该系统在
阅读更多2024-11-17
C++创建型模式之原型模式
通过原型设计模式，我们可以轻松地复制现有角色，避免了重复的构造代码，并且可以根据需要对克隆的角色进行微调。这种模式在复杂的游戏场景中非常有用，特别是在需要创建多个相似角色时。相似性：原型模式和拷贝构造
阅读更多2024-11-17
【C语言】前端未来
WebXR：WebXR是Web Reality Experience的缩写，它通过AR和VR技术提供沉浸式的交互体验，预计在未来会成为构建虚拟现实应用的重要平台，特别是结合混合现实设备如手机和头戴设备
阅读更多2024-11-17
ASUS/华硕灵耀X双屏Pro UX8402Z 原厂Win11-22H2系统工厂文件带ASUS Recovery恢复
系统，安装结束后带隐藏分区，一键恢复，以及机器所有驱动软件。请注意：仅支持以上型号专用，其他华硕机器切勿使用。需准备一个20G以上u盘进行恢复。系统版本：windows11。
阅读更多2024-11-17

为什么样本方差（sample variance）的分母是 n-1？

样本均值与样本方差的定义

通俗理解-自由度

严密推导过程

估计量的评选标准

无偏性

有效性

相合性

推导

相关文章