自学内容网 自学内容网

神奇的 数据分布(sample database classicmodels _No.9)

准备工作,可以去下载 classicmodels 数据库具体如下
点击:classicmodels

也可以去 下面我的博客资源下载
https://download.csdn.net/download/tomxjc/88685970

##什么是数据分布

数据分布是描述一组数据在不同值或区间上的排列方式,展示每个值出现的频率或概率。它能够帮助我们了解数据的整体特性、模式和趋势。例如,数据的集中程度、散布范围、对称性等。

常见的数据分布类型

在统计学中,有许多常见的数据分布类型,每种分布用于描述特定的数据特性。以下是几种常见的数据分布类型:

  1. 正态分布(Normal Distribution)

    • 特点:呈钟形曲线,对称分布,数据集中在均值附近,均值、众数和中位数相等。
    • 应用场景:描述许多自然现象,比如身高、体重、考试成绩等。
  2. 泊松分布(Poisson Distribution)

    • 特点:离散分布,描述单位时间或空间内稀有事件的发生次数,通常是右偏的。
    • 应用场景:呼叫中心的电话次数、交通事故的次数、网络请求的数量。
  3. 指数分布(Exponential Distribution)

    • 特点:右偏分布,描述事件发生的时间间隔,具有无记忆性。
    • 应用场景:设备的故障时间间隔、电话呼叫的时间间隔等。
  4. 长尾分布(Long-tail Distribution)

    • 特点:有一个较高的头部和一个逐渐延伸的尾部。少部分数据频率较高,大量数据频率较低。
    • 应用场景:电商销售(少数热销商品和大量小众商品)、内容消费(少数热门内容和大量小众内容)。
  5. 幂律分布(Power-law Distribution)

    • 特点:少数数据具有极高的频率,而多数数据的频率较低。呈现出高度不对称性。
    • 应用场景:社会网络连接(少数节点有大量连接)、财富分布(少数人占有大部分财富)。
  6. 均匀分布(Uniform Distribution)

    • 特点:所有可能的值出现的概率相等,呈现为一个矩形分布。
    • 应用场景:随机数生成、彩票抽奖等。
  7. 二项分布(Binomial Distribution)

    • 特点:描述在n次独立试验中成功出现的次数,每次试验有两个可能的结果(成功或失败)。
    • 应用场景:抛硬币得到正面次数、某种产品是否合格的数量。
  8. 伽玛分布(Gamma Distribution)

    • 特点:用于描述连续时间事件的总持续时间,是指数分布的推广。
    • 应用场景:描述某个复杂过程的时间长度,比如等待多个独立事件的发生时间。

总结

  • 数据分布可以直观地表示数据的形状、集中趋势、散布范围、对称性等特征。
  • 理解数据的分布类型对于选择适当的统计检验方法、机器学习模型和分析手段至关重要。

通过理解和使用数据分布,数据分析人员可以更好地进行数据建模、预测和决策支持。

那我们在做一个实验
在MySQL中,我们首先需要计算付款金额的最小值、最大值,并根据这些值计算出适合的区间宽度,以便将数据分为20个区间。

WITH RangeStats AS (
    SELECT
        MIN(amount) AS MinAmount,
        MAX(amount) AS MaxAmount,
        (MAX(amount) - MIN(amount)) / 20 AS IntervalWidth
    FROM payments
)

SELECT 
    FLOOR((amount - (SELECT MinAmount FROM RangeStats)) / (SELECT IntervalWidth FROM RangeStats)) AS GroupIndex,
    COUNT(*) AS Count
FROM payments, RangeStats
GROUP BY GroupIndex
ORDER BY GroupIndex;

在这里插入图片描述

在这里插入图片描述

根据本次数据,可以知道 更符合长尾分布的特点

数据特征总结:

  1. 初步观察:

    • 中心部分的数据量较大,尤其是在index 3 到 7 之间,数据达到高峰,其中index 5 的count是39。
    • 在达到高峰后,index从9开始数据急剧减少,并且有许多较小的值。
    • 数据的尾部出现较小的值,特别是在index为10之后,数据分布非常稀疏,几乎所有的值都为1或3。

分布类型分析:

  1. 正态分布

    • 特征:正态分布呈现出钟形曲线,数据集中在均值附近,并且向两边呈对称性逐渐减少。
    • 判断:您的数据在index 3 到 7 的部分表现出了一些集中趋势,但整体上缺乏对称性,右侧从index 9 之后急剧下降,因此不符合正态分布的特征。
  2. 长尾分布(Long-tail Distribution)

    • 特征:大部分的数据集中在头部,尾部存在大量的低频次事件。通常表现为从中心快速下降,尾部较长。
    • 判断:在您的数据中,可以看到中心部分相对高频,而右侧(index从10之后)数据逐渐变少,但仍然有一些较小的值(如index 14 之后有多次出现1的计数)。这种特征与长尾分布较为相似。
  3. 幂律分布(Power-law Distribution)

    • 特征:幂律分布通常表现为少量值占据大多数的频率,而大部分的其他值频率较低。典型的幂律分布是高度不对称的,并具有一个快速下降的尾部。
    • 判断:您的数据确实有一些符合幂律分布的特征——中心部分(例如index 5)占据了较大的计数值,而大部分index(如12, 16-20)只出现了1次。但整体上,您的数据在中心部分没有一个非常明显的“重头部”的高度偏离,符合幂律分布的可能性较低。
  4. 泊松分布(Poisson Distribution)

    • 特征:泊松分布通常用于描述单位时间内事件的发生次数,常见于稀有事件统计。泊松分布的形状取决于平均值,具有右偏或接近对称的分布。
    • 判断:泊松分布通常在较低值的部分频次较高,然后向右逐渐减少。您的数据中没有表现出经典的泊松分布特征,特别是在中间部分之后频次骤降而且不符合泊松分布的趋势。
  5. 指数分布(Exponential Distribution)

    • 特征:指数分布通常用于描述事件之间的间隔时间,表现为从一个最大值逐渐减少。
    • 判断:您的数据没有呈现出指数分布的单调递减趋势,中心部分存在高峰,之后急剧下降,也不是指数分布的典型特征。

结论:

您的数据**最符合长尾分布(Long-tail Distribution)**的特征,原因如下:

  • 数据在中间部分有一个高峰值,而尾部(index 10 之后)有许多较小的计数值。
  • 中心高峰后,频率快速下降,但尾部仍然有一些较低频次的数据,这些数据量虽小但数量较多,符合长尾分布的特征。

长尾分布通常用于描述那些有大量低频次事件的场景,像这样的数据通常可能与销售额、社交媒体内容观看次数、网络流量等有关。


原文地址:https://blog.csdn.net/tomxjc/article/details/143839845

免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!