CDA数据分析师一级经典错题知识点总结（5）

🕗 发布于 2025-01-13 11:01 etl工程师数据分析面试跳槽 人工智能

1、数值型缺失值用中位数补充，分类数据用众数补充。

2、偏态系数>1就是高度偏，0.5到1是中度。

3、分布和检验

在 t检验之前进行 F检验的目的是确保 t检验的方差齐性假设成立。如果 F检验结果显示方差不相等，则需要切换到调整后的 t 检验（Welch t检验），以获得更准确的分析结果。

分布类型	常用检验方法	适用场景
正态分布	正态性检验	判断数据分布形式，作为后续分析前提
卡方分布	卡方检验、方差检验	分析分类数据的独立性或分布拟合优度
t分布	t检验	小样本均值比较，数据需服从正态分布
F分布	方差分析（ANOVA）、回归方程的显著性检验	多组数据均值比较，数据需服从正态分布

均值：

t检验是样本均值检验，比较均值差异。

z检验用于大样本（样本量 > 30）或已知总体标准差的情况。例如，比较城市居民的平均收入是否达到全国平均水平。

方差：

F检验，比较两个样本的方差是否相等、是用于判断t检验的前提，所以F在t前。

方差分析检验，用于比较三个及以上组的均值是否相等。例如，不同城市对某商品满意度的差异。

Pearson相关性检验：

用于检验两个变量是否呈线性相关，适用于正态分布的数据。

Spearman秩相关性检验：

替代Pearson相关性检验，用于非正态分布数据或等级数据。

分布：

卡方分布检验：

用于离散型数据，检验实际分布与理论分布是否一致。例如，检验某调查数据与预期比例的吻合程度。

分类：

卡方检验（Chi-square test）：

检验分类变量之间的独立性。例如，分析性别与购物偏好是否相关。

4、箱线图从小到大排列

Q1代表1/4分位点，Q3代表3/4分位点，Q1<Q3。

中位数在Q1和Q3之间，Q3-Q1=1QR，其中Q1-1.5（1QR）为下限

Q3+1.5（1QR）为上限。

5、销售一般用目标比和同环比。

6、库销比反应进销存的流转速度，进而反映资金利用率。

7、SPU和SKU

SPU：Standard Product Unit，标准产品单元，可以理解为一个产品型号，比如上面图片看到的iPhone 14 (A2884) 就是一个标准的产品单元，它属于生产制造过程的一个标准品，标准品在缺乏具体规格信息的时候是不能直接售卖的（除非这个产品系列只有一个规格）。

SKU：Stock Keeping Unit，最小库存单元，也就是对应仓库中的一件商品，这个商品的规格信息在入库的时候就已经确定了的，因此是可以直接售卖的。

SPU 和 SKU 的关系：SPU 是一个相对抽象的概念，而SKU 是具象化的 SPU，也就是在 SPU 基础上添加了一个可售卖完整的规格信息，从而能够让顾客明确知道拿到手的商品是什么样。以服装为例，服装的一个款式是一个 SPU，只有加上了尺码、颜色后才能成为一个 SKU。、

8、波士顿矩形，又称为 BCG矩阵（Boston Consulting Group Matrix）。

明星（Stars）：
- 特点：高市场增长率 + 高市场份额。
- 策略：投资支持，继续扩大市场占有率，但需大量资金投入。
- 例子：快速增长的主流产品或市场占主导地位的创新业务。
金牛（Cash Cows）：
- 特点：低市场增长率 + 高市场份额。
- 策略：维持现状，收割利润，支持其他业务发展。
- 例子：成熟市场中的核心盈利产品。
问题（Question Marks）：
- 特点：高市场增长率 + 低市场份额。
- 策略：选择性投资，找到有潜力的业务转化为明星，否则放弃。
- 例子：新兴但竞争激烈的市场业务。
瘦狗（Dogs）：
- 特点：低市场增长率 + 低市场份额。
- 策略：减少投资甚至退出，避免资源浪费。
- 例子：市场边缘产品或夕阳产业。

9、统计图表不能用维度字段作为横坐标。

10、BI报表在设计阶段是把业务转为维度和度量的过程。

11、峰度 = 0是正态分布。

12、总订单平均值，要计算非重复订单。

13、AARRR模型：获取、激活、留存、获益（提高客单价付费转化率Revenue）、传播

14、ARPU（Average Revenue Per User）平均用户收入，总收入/活跃用户数量

、CRM（Customer Relationship Management）客户关系管理，重点在于提升客户满意度与忠诚度，并最终实现收益增长。

、CVM（Customer Value Management）客户价值管理，强调通过分析客户的生命周期价值（CLV Customer Lifetime Value ）优化与客户的互动，主要关注客户的长期收益贡献。

15、DML语言

-- 修改字段名
ALTER TABLE table_name
RENAME COLUMN old_column_name TO new_column_name;
-- 添加字段
ALTER TABLE employees
ADD hire_date DATE;
--删除字段
ALTER TABLE table_name
DROP COLUMN column_name;
ALTER TABLE employees
DROP COLUMN hire_date;

-- 修改表名
ALTER TABLE employees
RENAME TO staff;

-- 添加主键
ALTER TABLE employees
ADD PRIMARY KEY (employee_id);
-- 删除主键
ALTER TABLE employees
DROP PRIMARY KEY;
-- 语句更改字段属性或位置时至少需要指定字段名+字段的数据类型
ALTER TABLE employees
MODIFY salary INT AFTER age;

16、线性相关的强度

r=协方差 / 标准差的乘积

非常强的相关性：
- r 的绝对值接近 1（即 r 在 0.8 到 1.0 或 -0.8 到 -1.0 之间）表示非常强的线性关系。
强相关性：
- r 的绝对值在 0.6 到 0.8 之间表示强的线性关系。
中等程度的相关性：
- r的绝对值在 0.3 到 0.6 之间表示中等程度的线性关系。
弱相关性：
- r的绝对值在 0.1 到 0.3 之间表示弱的线性关系。
非常弱的相关性或无相关性：
- r的绝对值小于 0.1 通常被认为是非常弱的相关性或没有线性相关。

17、浏览量PV是对店铺内所有页面的总浏览量，而访问数visit（session数）是用户到达店铺或者平台到离开的一次完整访问，跳失次数表示用户进入首页没有下一步操作就离开的次数。

UV 访客数是独立访问数

跳失率= 跳失次数/访问数

平均访问深度= 浏览量/访问数

18、ARPU，用户平均收入，Average Revenue Per User = 总收入/总用户数。

19、CAC，用户获取成本，Customer Acquisition Cost 。

20、费用支付核算方式

CPM Mille 千次曝光
CPS Sales 实际销售
CPC Click 点击收费

21、表格结构数据的函数组成部分：操作符、函数表达式、参数、返回值。

22、空值是空白值的简称。

23、漏斗模型需要关注体型、流速、体量。

24、数据驱动业务：以经验为主，经验比数据更加可信。

25、BI报表和业务分析报告的区别主要是：

侧重业务面的完整叙述
动态信息
以表格图表为主
基于多源数据

原文地址：https://blog.csdn.net/weixin_45556024/article/details/145082731

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：利用Java爬虫获取淘宝商品描述item_get_descAPI接口
下一篇：Java 继承

利用Python爬虫获取义乌购店铺所有商品列表：技术探索与实践
Python爬虫是一种基于Python编程语言开发的自动化数据采集工具，它通过模拟浏览器的行为，向目标网站发送HTTP请求，获取网页内容，并从中提取所需的数据。Python爬虫具有高度的灵活性和可扩展
阅读更多2025-01-13
Linux 进程入门：带你走进操作系统的核心地带（1）
从计算机管理硬件需描述与组织对象引入，阐述进程概念，课本中它是程序执行实例，内核里是分配系统资源的实体。Linux 通过进程控制块 PCB（即 task_struct 结构体）管理进程，其包含标示符、
阅读更多2025-01-13
Jenkins使用入门
jenkins使用入门以及语bitbucket联通
阅读更多2025-01-13
React Fragment 和空标签(＜＞＜/＞)用法详细以及区别
Fragment需要 key 属性时在 TypeScript 中需要明确类型需要语义化的代码结构空标签简单的组件包裹不需要任何属性追求简洁的代码。
阅读更多2025-01-13
jenkins 调用bat脚本
参数设置完后，在build step里如下设置。3，在jenkins中运行带参数的bat脚本。创建一个freestyle的项目。1，pipeline语句如下。脚本bat脚本内容如下。第0个参数是脚本本
阅读更多2025-01-13
《操作系统真象还原》第十二章（二） —— 完善堆内存管理
上一节，我们完成了用户程序和操作系统之间的接口——系统调用，本节我们在此基础上完善堆内存管理——实现malloc和free之前我们虽然已经实现了内存管理，但之前实现分配的内存都是以 4KB 大小的页框
阅读更多2025-01-13
＜C++＞ XlsxWriter写EXCEL
libxlsxwriter
阅读更多2025-01-13
【JVM-2】JVM图形化监控工具大全：从入门到精通
JVM图形化监控工具是Java开发和运维中不可或缺的工具。本文详细介绍了常用的JVM图形化监控工具及其使用方法，帮助你全面掌握JVM监控技术。希望这些内容能帮助你更好地监控和优化Java应用，提升应用
阅读更多2025-01-13
Objective-C语言的网络编程
Objective-C作为一种强大的开发语言，结合等类库，可以方便地进行网络编程。通过本文的介绍，我们学习了如何创建网络请求、发送不同类型的HTTP请求、解析JSON和XML等数据。掌握这些技能将帮助
阅读更多2025-01-13
JVM与Java体系结构
一、前言:
阅读更多2025-01-13

CDA数据分析师一级经典错题知识点总结（5）

相关文章