自学内容网 自学内容网

【小白学机器学习42】进行多次抽样,样本的分布参数和总体的分布参数的关系

目录

1 进行多次抽样,样本的分布参数和总体的分布参数的关系

2  样本容量越大,多次抽样的样本的分布参数和总体的分布参数的关系

3 随着样本容量增大,多次抽样均值的 平均值,方差的变化

4 随着样本容量增大,多次抽样方差的 平均值,方差的变化


进行多次抽样,样本的分布参数和总体的分布参数的关系

1 进行多次抽样,样本的分布参数和总体的分布参数的关系

  • 每次抽样都会得到1个均值,1个方差
  • 多次抽样会得到多个均值,多个方差
  • 可以把多次抽样得到的均值,方差再进行平均,看下多次抽样的平均值和总体参数的关系

  • 多次抽样会得到多个均值→也就是均值数组,这个均值数组的平均值,接近总体的均值
  • 多次抽样会得到多个方差→也就是方差数组,这个方差数组的平均值,会远小于总体的均值,这就是样本方差对总体方差的有偏估计。
  •  std的情况类方差。

import numpy as np
import pandas as pd
import scipy as sp
from matplotlib import pyplot as plt
import seaborn as sns
%precision 3

population1=sp.stats.norm(loc=4,scale=0.8)  #不设置size,可以认为是一个无限的总体?
samples_mean_array1=np.zeros(1000)
np.random.seed(1)
for i in range(0,1000):
    sample1=population1.rvs(size=10)
    samples_mean_array1[i]=np.mean(sample1)

#print(samples_mean_array1)
sns.distplot(samples_mean_array1)
#sns.histplot(samples_mean_array1)
#sns.kdeplot(samples_mean_array1, fill=True)
plt.show()

print(f"设置的总体的均值 =4")
print(f"设置的总体的方差 ={0.8*0.8}")
print(f"设置的总体的标准差 =0.8")
print()

print(f"多次抽样的样本均值的均值 = {np.mean(samples_mean_array1)}")
print(f"多次抽样的样本方差的均值 = {np.var(samples_mean_array1)}")
print(f"多次抽样的样本标准差的均值 = {np.std(samples_mean_array1)}")
print()
      
print("多次抽样的样本的均值的均值,接近总体的均值")      
print("多次抽样的样本的方差的均值,远远小于总体的方差")   
print("多次抽样的样本的标准差的均值,远远小于总体的标准差")       
print()

2  样本容量越大,多次抽样的样本的分布参数和总体的分布参数的关系

  • 首先,还是基于,多次抽样
  • 因为单次抽样的随机性比较大
  • 样本容量越大,多次抽样的样本的分布参数和总体的分布参数的关系会发现
  1. 样本容量越大,多次抽样的样本的平均值的均值,会收敛,越来越接近总体的平均值
  2. 样本容量越大,多次抽样的样本的方差的均值,会收敛,越来越接近总体的方差

hist图就像把plot给旋转竖过来了+ 下沉相同的归类后统计成次数!!

hist图就像把plot给旋转竖过来了+ 下沉相同的归类后统计成次数!!

hist图就像把plot给旋转竖过来了+ 下沉相同的归类后统计成次数!!

随着抽样次数的变化

每次都增加抽样样本的容量

可以发现

写到一半,代码居然崩了,丢失了。。。。

3 随着样本容量增大,多次抽样均值的 平均值,方差的变化

  • 多次抽样的样本均值的均值 趋向总体的均值
  • 多次抽样的样本均值的 方差很小,说明很稳定

4 随着样本容量增大,多次抽样方差的 平均值,方差的变化

  • 多次抽样的样本方差的均值,应该还是小于总体的方差,因为是有偏估计
  • 多次抽样的样本方差的 方差很大?不稳定?


原文地址:https://blog.csdn.net/xuemanqianshan/article/details/144143451

免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!