自学内容网 自学内容网

CDA数据分析师一级经典错题知识点总结(5)

1、数值型缺失值用中位数补充,分类数据用众数补充。

2、偏态系数>1就是高度偏,0.5到1是中度。

3、分布和检验

在 t检验之前进行 F检验的目的是确保 t检验的方差齐性假设成立。如果 F检验结果显示方差不相等,则需要切换到调整后的 t 检验(Welch t检验),以获得更准确的分析结果。

分布类型常用检验方法适用场景
正态分布正态性检验判断数据分布形式,作为后续分析前提
卡方分布卡方检验、方差检验分析分类数据的独立性或分布拟合优度
t分布t检验小样本均值比较,数据需服从正态分布
F分布方差分析(ANOVA)、回归方程的显著性检验多组数据均值比较,数据需服从正态分布

均值:

t检验是样本均值检验,比较均值差异。

z检验用于大样本(样本量 > 30)或已知总体标准差的情况。例如,比较城市居民的平均收入是否达到全国平均水平。

方差:

F检验,比较两个样本的方差是否相等、是用于判断t检验的前提,所以F在t前。

方差分析检验,用于比较三个及以上组的均值是否相等。例如,不同城市对某商品满意度的差异。

Pearson相关性检验

  • 用于检验两个变量是否呈线性相关,适用于正态分布的数据。

Spearman秩相关性检验

  • 替代Pearson相关性检验,用于非正态分布数据或等级数据。

分布:

卡方分布检验

用于离散型数据,检验实际分布与理论分布是否一致。例如,检验某调查数据与预期比例的吻合程度。

分类:

卡方检验(Chi-square test)

  • 检验分类变量之间的独立性。例如,分析性别与购物偏好是否相关。

4、箱线图 从小到大排列

Q1代表1/4分位点,Q3代表3/4分位点,Q1<Q3。

中位数在Q1和Q3之间,Q3-Q1=1QR,其中Q1-1.5(1QR) 为下限

Q3+1.5(1QR)为上限。

5、销售一般用目标比和同环比。

6、库销比反应进销存的流转速度,进而反映资金利用率。

7、SPU和SKU

SPU:Standard Product Unit,标准产品单元,可以理解为一个产品型号,比如上面图片看到的iPhone 14 (A2884) 就是一个标准的产品单元,它属于生产制造过程的一个标准品,标准品在缺乏具体规格信息的时候是不能直接售卖的(除非这个产品系列只有一个规格)。

SKU:Stock Keeping Unit,最小库存单元,也就是对应仓库中的一件商品,这个商品的规格信息在入库的时候就已经确定了的,因此是可以直接售卖的。

SPU 和 SKU 的关系:SPU 是一个相对抽象的概念,而SKU 是具象化的 SPU,也就是在 SPU 基础上添加了一个可售卖完整的规格信息,从而能够让顾客明确知道拿到手的商品是什么样。以服装为例,服装的一个款式是一个 SPU,只有加上了尺码、颜色后才能成为一个 SKU。、

8、波士顿矩形,又称为 BCG矩阵(Boston Consulting Group Matrix)。

  • 明星(Stars)
    • 特点:高市场增长率 + 高市场份额。
    • 策略:投资支持,继续扩大市场占有率,但需大量资金投入。
    • 例子:快速增长的主流产品或市场占主导地位的创新业务。
  • 金牛(Cash Cows)
    • 特点:低市场增长率 + 高市场份额。
    • 策略:维持现状,收割利润,支持其他业务发展。
    • 例子:成熟市场中的核心盈利产品。
  • 问题(Question Marks)
    • 特点:高市场增长率 + 低市场份额。
    • 策略:选择性投资,找到有潜力的业务转化为明星,否则放弃。
    • 例子:新兴但竞争激烈的市场业务。
  • 瘦狗(Dogs)
    • 特点:低市场增长率 + 低市场份额。
    • 策略:减少投资甚至退出,避免资源浪费。
    • 例子:市场边缘产品或夕阳产业。

9、统计图表不能用维度字段作为横坐标。

10、BI报表在设计阶段是把业务转为维度和度量的过程。

11、峰度 = 0是正态分布。

12、总订单平均值,要计算非重复订单。

13、AARRR模型:获取、激活、留存、获益(提高客单价付费转化率Revenue)、传播

14、ARPU(Average Revenue Per User) 平均用户收入,总收入/活跃用户数量

、CRM(Customer Relationship Management) 客户关系管理,重点在于提升客户满意度与忠诚度,并最终实现收益增长。

、CVM(Customer Value Management) 客户价值管理,强调通过分析客户的生命周期价值(CLV Customer Lifetime Value )优化与客户的互动,主要关注客户的长期收益贡献。

15、DML语言

-- 修改字段名
ALTER TABLE table_name
RENAME COLUMN old_column_name TO new_column_name;
-- 添加字段
ALTER TABLE employees
ADD hire_date DATE;
--删除字段
ALTER TABLE table_name
DROP COLUMN column_name;
ALTER TABLE employees
DROP COLUMN hire_date;

-- 修改表名
ALTER TABLE employees
RENAME TO staff;

-- 添加主键
ALTER TABLE employees
ADD PRIMARY KEY (employee_id);
-- 删除主键
ALTER TABLE employees
DROP PRIMARY KEY;
-- 语句更改字段属性或位置时至少需要指定字段名+字段的数据类型
ALTER TABLE employees
MODIFY salary INT AFTER age;

16、线性相关的强度

r=协方差 / 标准差的乘积

  1. 非常强的相关性
    • r 的绝对值接近 1(即 r 在 0.8 到 1.0 或 -0.8 到 -1.0 之间)表示非常强的线性关系。
  2. 强相关性
    • r 的绝对值在 0.6 到 0.8 之间表示强的线性关系。
  3. 中等程度的相关性
    • r的绝对值在 0.3 到 0.6 之间表示中等程度的线性关系。
  4. 弱相关性
    • r的绝对值在 0.1 到 0.3 之间表示弱的线性关系。
  5. 非常弱的相关性或无相关性
    • r的绝对值小于 0.1 通常被认为是非常弱的相关性或没有线性相关。

17、浏览量PV是对店铺内所有页面的总浏览量,而访问数visit(session数)是用户到达店铺或者平台到离开的一次完整访问,跳失次数表示用户进入首页没有下一步操作就离开的次数。

UV 访客数 是独立访问数

跳失率= 跳失次数/访问数

平均访问深度= 浏览量/访问数

18、ARPU,用户平均收入,Average Revenue Per User = 总收入/总用户数。

19、CAC,用户获取成本,Customer Acquisition Cost 。

20、费用支付核算方式

  1. CPM Mille 千次曝光
  2. CPS Sales 实际销售
  3. CPC Click 点击收费

21、表格结构数据的函数组成部分:操作符、函数表达式、参数、返回值。

22、空值是空白值的简称。

23、漏斗模型需要关注体型、流速、体量。

24、数据驱动业务:以经验为主,经验比数据更加可信。

25、BI报表和业务分析报告的区别主要是:

  1. 侧重业务面的完整叙述
  2. 动态信息
  3. 以表格图表为主
  4. 基于多源数据

原文地址:https://blog.csdn.net/weixin_45556024/article/details/145082731

免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!