自学内容网 自学内容网

描述性分析:偏度和峰度

目录

0 引言

1 偏态及其测量

2 峰度及其测量


0 引言

集中趋势与离散程度是数据分布的两个重要特征,但要全面了解数据分布的特点,我们还应考虑数据分布的形状是否为对称、偏斜的程度以及分布的扁平程度等问题。

1 偏态及其测量

偏度(或偏态)一词最早由统计学家皮尔逊于1895年提出,是对数据分布的对称性的一种度量。偏度是测定一个次数分布的非对称程度的统计指标。相对于对称分布,偏度有两种:一种是左向偏态,简称左偏;另一种是右向偏态,简称右偏,具体如图所示。 

 可以看出,对于单峰的分布,在对称、左偏、右偏的情况下,算术平均数、中位数、众数的位置关系如下。

对称:\overline{X}=Md=M0;左偏:\overline{X}<Md<M0;右偏:\overline{X}>Md>M0

 右偏和左偏的程度都可以用一定的方法测定出来。当实际分布为右偏时,测定出的偏度值为正值,因而右偏又称为正偏;当实际分布为左偏时,测定出的偏度值为负值,所以左偏又称为负偏

测定统计分布偏度较简单、较直观的方法是利用算术平均数与位置平均数的关系来进行,简述如下:

在对称分布下,算术平均数与中位数、众数三者合而为一,既\overline{X}=Md=M0,而在非对称分布下,算术平均数与中位数和众数发生分离。其中中位数位居中间,算术平均数和众数分居两边。因此,算术平均数与众数之间的距离,可以说明实际分布的绝对偏斜程度,即 

偏态=算术平均数-众数 

算术平均数与众数之间的距离越远,实际分布的绝对偏态越大,表明次数分布的非对称程度越大。由于绝对偏态受数列中原有标志值水平高低的影响,在不同数列之间不具有可比性,通常是计算相对偏态来表示偏度。相对偏态是绝对偏态与数列原有标志值的标准差之比,称为偏斜系数(记为SK)​。其计算公式为

 

由上式可知,当算术平均数大于众数时,偏斜系数为正值,属于正偏(右偏)​;当算术平均数小于众数时,偏斜系数为负值,属于负偏(左偏)​。

根据经验,在分布适度偏斜的情况下,算术平均数与众数的距离约等于算术平均数和中位数之间距离的三倍,即有如下近似的等式关系。

所以偏度也可用算术平均数与中位数之间的关系来测定,即:SK=

称之为皮氏偏斜系数,简称偏斜系数.

偏斜系数的变动范围为-3≤SK≤+3。当SK=0时,表示对称分布;当SK>0时,表示右偏;当SK<0时,表示左偏。 

测量偏态的另一种度量是α偏斜系数,它的特点是较皮氏偏斜系数更多地利用已知信息,让所有观察值都参与运算,以求得到较为准确的描述结果。α偏斜系数的计算公式为

从中可以看到,它是离差三次方的平均数再除以标准差的三次方。当分布对称时,离差三次方后正负离差可以相互抵消,因而α的分子等于0,则α=0;当分布不对称时,正负离差不能抵消,就形成了正与负的偏态系数α。当α为正值时,表示正偏离差值较大,可以判断为正偏或右偏;反之,α为负值时,表示负偏离差值较大,可以判断为负偏或左偏。 

偏态系数α的数值一般在0~3或者-3之间,α越接近0,分布的偏斜度越小;α越接近3或-3,分布的偏斜度越大。

2 峰度及其测量

峰度(或峰态)最早由统计学家皮尔逊于1905年提出。它是反映某个分布与标准正态分布相比陡峭程度的统计指标。峰度有三种形态:正常峰度、尖顶峰度和平顶峰度。当分布数列的次数比较集中于众数位置,次数分布曲线的峰顶较正态分布曲线的峰顶更为隆起时,属于尖顶分布;当分布数列的次数对众数来说比较分散(即没有明显的集中趋势)​,次数分布曲线的峰顶较正态分布曲线的峰顶更为平坦时,属于平顶分布

测量峰度的度量称为峰度系数,以β表示。其公式为

峰度系数是统计中描述次数分布状态的又一个重要特征值,用以测定邻近数值周围变量值分布的集中或分散程度。它以四阶中心矩为测量标准,除以σ4是为了消除单位量纲的影响,而得到以无名数表示的相对数形式,以便在不同的分布曲线之间进行比较。由于正态分布的峰度系数为0,当β>0时为尖峰分布,当β<0时为平顶分布。 


原文地址:https://blog.csdn.net/godlovedaniel/article/details/142979224

免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!