CDA数据分析师一级经典错题知识点总结(5)
1、数值型缺失值用中位数补充,分类数据用众数补充。
2、偏态系数>1就是高度偏,0.5到1是中度。
3、分布和检验
在 t检验之前进行 F检验的目的是确保 t检验的方差齐性假设成立。如果 F检验结果显示方差不相等,则需要切换到调整后的 t 检验(Welch t检验),以获得更准确的分析结果。
分布类型 | 常用检验方法 | 适用场景 |
---|---|---|
正态分布 | 正态性检验 | 判断数据分布形式,作为后续分析前提 |
卡方分布 | 卡方检验、方差检验 | 分析分类数据的独立性或分布拟合优度 |
t分布 | t检验 | 小样本均值比较,数据需服从正态分布 |
F分布 | 方差分析(ANOVA)、回归方程的显著性检验 | 多组数据均值比较,数据需服从正态分布 |
均值:
t检验是样本均值检验,比较均值差异。
z检验用于大样本(样本量 > 30)或已知总体标准差的情况。例如,比较城市居民的平均收入是否达到全国平均水平。
方差:
F检验,比较两个样本的方差是否相等、是用于判断t检验的前提,所以F在t前。
方差分析检验,用于比较三个及以上组的均值是否相等。例如,不同城市对某商品满意度的差异。
Pearson相关性检验:
- 用于检验两个变量是否呈线性相关,适用于正态分布的数据。
Spearman秩相关性检验:
- 替代Pearson相关性检验,用于非正态分布数据或等级数据。
分布:
卡方分布检验:
用于离散型数据,检验实际分布与理论分布是否一致。例如,检验某调查数据与预期比例的吻合程度。
分类:
卡方检验(Chi-square test):
- 检验分类变量之间的独立性。例如,分析性别与购物偏好是否相关。
4、箱线图 从小到大排列
Q1代表1/4分位点,Q3代表3/4分位点,Q1<Q3。
中位数在Q1和Q3之间,Q3-Q1=1QR,其中Q1-1.5(1QR) 为下限
Q3+1.5(1QR)为上限。
5、销售一般用目标比和同环比。
6、库销比反应进销存的流转速度,进而反映资金利用率。
7、SPU和SKU
SPU:Standard Product Unit,标准产品单元,可以理解为一个产品型号,比如上面图片看到的iPhone 14 (A2884) 就是一个标准的产品单元,它属于生产制造过程的一个标准品,标准品在缺乏具体规格信息的时候是不能直接售卖的(除非这个产品系列只有一个规格)。
SKU:Stock Keeping Unit,最小库存单元,也就是对应仓库中的一件商品,这个商品的规格信息在入库的时候就已经确定了的,因此是可以直接售卖的。
SPU 和 SKU 的关系:SPU 是一个相对抽象的概念,而SKU 是具象化的 SPU,也就是在 SPU 基础上添加了一个可售卖完整的规格信息,从而能够让顾客明确知道拿到手的商品是什么样。以服装为例,服装的一个款式是一个 SPU,只有加上了尺码、颜色后才能成为一个 SKU。、
8、波士顿矩形,又称为 BCG矩阵(Boston Consulting Group Matrix)。
- 明星(Stars):
- 特点:高市场增长率 + 高市场份额。
- 策略:投资支持,继续扩大市场占有率,但需大量资金投入。
- 例子:快速增长的主流产品或市场占主导地位的创新业务。
- 金牛(Cash Cows):
- 特点:低市场增长率 + 高市场份额。
- 策略:维持现状,收割利润,支持其他业务发展。
- 例子:成熟市场中的核心盈利产品。
- 问题(Question Marks):
- 特点:高市场增长率 + 低市场份额。
- 策略:选择性投资,找到有潜力的业务转化为明星,否则放弃。
- 例子:新兴但竞争激烈的市场业务。
- 瘦狗(Dogs):
- 特点:低市场增长率 + 低市场份额。
- 策略:减少投资甚至退出,避免资源浪费。
- 例子:市场边缘产品或夕阳产业。
9、统计图表不能用维度字段作为横坐标。
10、BI报表在设计阶段是把业务转为维度和度量的过程。
11、峰度 = 0是正态分布。
12、总订单平均值,要计算非重复订单。
13、AARRR模型:获取、激活、留存、获益(提高客单价付费转化率Revenue)、传播
14、ARPU(Average Revenue Per User) 平均用户收入,总收入/活跃用户数量
、CRM(Customer Relationship Management) 客户关系管理,重点在于提升客户满意度与忠诚度,并最终实现收益增长。
、CVM(Customer Value Management) 客户价值管理,强调通过分析客户的生命周期价值(CLV Customer Lifetime Value )优化与客户的互动,主要关注客户的长期收益贡献。
15、DML语言
-- 修改字段名
ALTER TABLE table_name
RENAME COLUMN old_column_name TO new_column_name;
-- 添加字段
ALTER TABLE employees
ADD hire_date DATE;
--删除字段
ALTER TABLE table_name
DROP COLUMN column_name;
ALTER TABLE employees
DROP COLUMN hire_date;
-- 修改表名
ALTER TABLE employees
RENAME TO staff;
-- 添加主键
ALTER TABLE employees
ADD PRIMARY KEY (employee_id);
-- 删除主键
ALTER TABLE employees
DROP PRIMARY KEY;
-- 语句更改字段属性或位置时至少需要指定字段名+字段的数据类型
ALTER TABLE employees
MODIFY salary INT AFTER age;
16、线性相关的强度
r=协方差 / 标准差的乘积
- 非常强的相关性:
- r 的绝对值接近 1(即 r 在 0.8 到 1.0 或 -0.8 到 -1.0 之间)表示非常强的线性关系。
- 强相关性:
- r 的绝对值在 0.6 到 0.8 之间表示强的线性关系。
- 中等程度的相关性:
- r的绝对值在 0.3 到 0.6 之间表示中等程度的线性关系。
- 弱相关性:
- r的绝对值在 0.1 到 0.3 之间表示弱的线性关系。
- 非常弱的相关性或无相关性:
- r的绝对值小于 0.1 通常被认为是非常弱的相关性或没有线性相关。
17、浏览量PV是对店铺内所有页面的总浏览量,而访问数visit(session数)是用户到达店铺或者平台到离开的一次完整访问,跳失次数表示用户进入首页没有下一步操作就离开的次数。
UV 访客数 是独立访问数
跳失率= 跳失次数/访问数
平均访问深度= 浏览量/访问数
18、ARPU,用户平均收入,Average Revenue Per User = 总收入/总用户数。
19、CAC,用户获取成本,Customer Acquisition Cost 。
20、费用支付核算方式
- CPM Mille 千次曝光
- CPS Sales 实际销售
- CPC Click 点击收费
21、表格结构数据的函数组成部分:操作符、函数表达式、参数、返回值。
22、空值是空白值的简称。
23、漏斗模型需要关注体型、流速、体量。
24、数据驱动业务:以经验为主,经验比数据更加可信。
25、BI报表和业务分析报告的区别主要是:
- 侧重业务面的完整叙述
- 动态信息
- 以表格图表为主
- 基于多源数据
原文地址:https://blog.csdn.net/weixin_45556024/article/details/145082731
免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!