笔记(数据运营方向)
以下是一些在工作过程中的小笔记,写的比较杂乱,后续再进行分类~
1、掌握sql窗口函数
窗口函数又名开窗函数,属于分析函数的一种。用于解决复杂报表统计需求的功能强大的函数。窗口函数用于计算基于组的某种聚合值,它和聚合函数的不同之处是:对于每个组返回多行,而聚合函数对于每个组只返回一行。
开窗函数指定了分析函数工作的数据窗口大小,这个数据窗口大小可能会随着行的变化而变化。下面列举一些常用窗口函数:
获取数据排名的:ROW_NUMBER() RAND() DEBSE_RANK() PERCENT_RANK()
获取分组内的第一名或者最后一名等:FIRST_VALUE() LAST_VALUE() LEAD() LAG()
累计分布:vCUME_DIST() NTH_VALUE() NTILE()
2、统计概率
描述性统计(平均值,标准差,中位数)
概率(独立事件,相关事件,期望,包括贝叶斯)
概率分布(离散概率分布,连续概率分布)
统计推断(抽样,置信区间,假设检验)
3、介绍项目主要采用STAR原则去讲解,有过程,有结果。
STAR原则是四个四个英文单词的首字母组合,分别是Situation(情景)、Task(目标)、Action(行动)和Result(结果)。
4、AB测试与假设检验?
AB测试:为同一个目标,设计两种方案,将两种方案随机投放市场中,让组成成分相同(相似)用户去随机体验两种方案之一,根据观测结果,判断哪个方案效果更好,结果可以通过CTR点击率(CTR =(点击次数 / 展示次数)×100%)或者下单率来衡量。
假设检验:假设检验是先对总体参数提出一个假设值,然后利用样本信息判断这一假设是否成立,是传统统计学的重要内容,主要有卡方检验(看分类数据之间有没有关联)、t检验(比较平均值)、F检验(比较方差-离散程度)等,在AB测试中扮演显著性检验的角色。
5、TO C指标体系?
指标是量化衡量标准、衡量目标的单位或方法,例如对电商或内容数据分析来说,最常见的指标就是UV(独立访客数)和PV(页面浏览量),而针对APP来说,最常见的就是DAU(日活跃用户数),MAU(月活跃用户数)。
核心指标:休眠用户、潜在用户、活跃用户、流失用户、进入活跃用户、今日注册用户、今日访问用户、今日下单用户
流量指标:PV、UV
转化率&留存指标:总体转化率、百度转化率等,次日留存、三日留存、七日留存等
内容质量指标:播放量、刷新量、展现量、分发量、点击量、播放完成量、下载量
商品运营指标:商品分享类指标、商品复购类指标、商品收藏购买指标
6、如果次留下降了 5%该怎么分析?
首先采用“两层模型”分析:对用户进行细分,包括新老、渠道、活动、画像等多个维度,然后分别计算每个维度下不同用户的次日留存率。通过这种方法定位到导致留存率下降的用户群体是谁
对于目标群体次日留存下降问题,具体情况具体分析。具体分析可以采用“内部-外部”因素考虑,内部因素分为获客(渠道质量低、活动获取非目标用户)、满足需求(新功能改动引发某类用户不满)、提活手段(签到等提活手段没打成目标、产品自然使用周期低导致上次获得的大量用户短期内不需要再使用等);外部因素采用PEST分析,政治(政策影响)、经济(短期内主要是竞争环境,如对竞争对手的活动)、社会(舆论压力、用户生活方式变化、消费心理变化、价值观变化等偏好变化)、技术(创新解决方案的出现、分销渠道变化等)
7、AARRR模型是什么?
AARRR分别代表了五个单词,又分别对应了产品生命周期中的五个阶段:
获取(Acquisition):用户如何发现(并来到)你的产品?
激活(Activation):用户的第一次使用体验如何?
留存(Retention):用户是否还会回到产品(重复使用)?
收入(Revenue):产品怎样(通过用户)赚钱?
传播(Refer):用户是否愿意告诉其他用户?
8、CPA、CPS、CPM、CPT、CPC 是什么?
CPA(Cost Per Action) 每行动成本。CPA是一种按广告投放实际效果计价方式的广告,即按回应的有效问卷或注册来计费,而不限广告投放量。电子邮件营销(EDM)现在有很多都是CPA的方式在进行。
CPS(Cost Per Sales):以实际销售产品数量来换算广告刊登金额。CPS是一种以实际销售产品数量来计算广告费用的广告,这种广告更多的适合购物类、导购类、网址导航类的网站,需要精准的流量才能带来转化。
CPM(Cost Per Mille) 每千人成本。CPM是一种展示付费广告,只要展示了广告主的广告内容,广告主就为此付费。
CPT(Cost Per Time) 每时间段成本。CPT是一种以时间来计费的广告,国内很多的网站都是按照“一个星期多少钱”这种固定收费模式来收费。
CPC(Cost Per Click) 每点击成本。CPC是一种点击付费广告,根据广告被点击的次数收费。如关键词广告一般采用这种定价模式,比较典型的有Google广告联盟的AdSense for Content和百度联盟的百度竞价广告。
9、数据缺失值处理办法
删除样本或删除字段
用中位数、平均值、众数等填充
插补:同类均值插补、多重插补、极大似然估计
用其它字段构建模型,预测该字段的值,从而填充缺失值(注意:如果该字段也是用于预测模型中作为特征,那么用其它字段建模填充缺失值的方式,并没有给最终的预测模型引入新信息)
onehot,将缺失值也认为一种取值
压缩感知及矩阵补全
10、用Python怎么进行数据分析?
数据获取:如果采用现有数据集,则直接用内置函数或第三方库读取;如果没有现成数据,运用requests库和bs4库等进行数据采集。
数据清洗:利用numpy、pandas等库进行缺失值、异常值处理。
数据探索:利用pandas、matplotlib等库进行数据描述统计分析及可视化。
特征工程:构建指标体系,采用sklearn等库中聚类降维与特征筛选方法进行特征工程构建。
数据建模:利用传统统计学模型(statsmodels库)或者机器学习模型(sklearn、keras、tensorflow、pytorch等库)进行建模并评估最终得出结果。
11、数仓中ODS、DW、DM概念及区别?
ODS(Operational Data Store) 主要用于存储从各个业务系统,是简单清洗过的原始数据。ODS的数据最终流入DW。及时性、与业务数据相近、数据质量低。
DW (Data Warehouse)数据仓库,是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合。从 ODS 以及其他外部数据源中获取数据,经过了 ETL(抽取、转换、加载)过程,使得数据能够以一种统一的、适合分析的方式存储。。并且,数据仓库的数据会保留历史记录,用于支持数据分析和决策。面向主题、数据集成高、相对稳定(更新与历史数据)
DM(Data Mart) 数据集市,DW的子集,为了满足特定业务的数据分析需求而构建的小型数据仓库,针对性强,数据范围窄,便于分析与访问。
12、数仓中维度建模含义?有哪几种模式?
维度建模(dimensional modeling)是专门用于分析型数据库、数据仓库、数据集市建模的方法。 它本身属于一种关系建模方法,包含了基本的两个概念:维度表(dimension, 表示对分析主题所属类型的描述。)和事实表(fact table,表示对分析主题的度量)。
维度建模包含三种模式:
星形模式:由一个事实表和多个维度表组成,适用于相对简单、业务规则明确的数据分析场景(一张表多个维度分析)
雪花模式:雪花模式是对星型模式的扩展和细化。在雪花模式中,维度表可以进一步分解为多个子维度表,形成一种类似雪花的形状。适用于对数据规范性要求较高、数据冗余度要求较低,并且对查询性能要求不是特别高的场景(一张表多个维度内拆分维度分析)
星座模式:包含多个事实表,这些事实表共享一些维度表(多个表共用维度分析)
13、维度表和事实表
维度表:主要用于描述事实表中的数据,包含了用于对事实进行分类、筛选、汇总的各种属性信息
事实表:存储业务过程中的度量数据,也就是业务的关键绩效指标(KPI)相关的数据,是数据分析的核心。
二者关系:事实表与维度表通过外键-主键进行关联,这样就可以从事实表中的数据追溯到相应的维度信息,从而实现从多个维度对事实进行分析。
14、维度和度量
维度:是观察和分析数据的角度或属性。它用于对数据进行分类、分组和筛选,帮助用户从不同的层次和范围理解数据。
度量:是可以进行量化和计算的业务数据指标,用于衡量业务活动的程度或结果。(值)
15、埋点:
埋点是一种数据采集的方法,它是在应用程序(包括网站、移动 APP 等)中特定的位置添加代码,用来记录用户的行为以及应用程序的状态变化等相关信息。就像是在程序中 “埋下” 了一个个数据收集的 “点”,当用户的操作或者程序运行到这些点的时候,就会触发数据记录的动作。
16、数据模型概念:
(1)定义:
数据模型是一种对数据特征的抽象表示,它通过定义数据的结构、关系以及约束条件,来描述数据如何被组织、存储和操作。简单来说,数据模型就像是一个蓝图,规定了数据的形状、各个部分之间的关联方式以及一些必须遵守的规则。
例如,在一个图书馆管理系统中,书籍的数据模型可能包括书籍的编号、书名、作者、出版日期、类别等信息。这些信息的组合方式和它们之间的相互关系(如一本书只有一个编号,一个作者可以有多本书等)就构成了书籍数据的模型。
(2) 分类:
概念数据模型:(定义字段)从业务角度描述数据的需求和概念(如用户、商品、订单等实体,且之间或存在购买等相互作用的关系)
逻辑数据模型:(设计表结构)定义了数据的结构和关系(如详细定义 用户ID-主键、用户名、密码、订单ID-主键等属性,且定义订单与用户之间通过用户ID进行关联-外键关系)
物理数据模型:(数据库信息)考虑了具体的数据库管理系统(DBMS)的特性,如数据类型、存储方式等(如定义用户Id为INT、用户名为VARCHAR等、数据文件存储位置等)
(3)数据模型设计流程:
需求分析阶段:业务理解(是什么)、数据需求梳理(目的)、确认数据范围和边界(范围)
概念模型设计阶段:识别实体(有什么)、定义实体属性、确认实体之间关系(关系)
逻辑模型设计阶段:数据结构细化(将实体转换为逻辑上的表结构)、定义完整性约束、设计数据操作逻辑(考虑如何对数据进行增、删、改、查操作)
物理模型设计阶段:选择数据库管理系统(DBMS)、确定数据存储结构、考虑性能优化、进行容量规划和存储分配
模型验证和优化阶段:数据模型验证(检查能够满足业务需求,包括存储/查询/更新等操作是否符合预期/准确)、性能测试和优化、反馈和调整
17、运营中产生的数据包括全局数据(all)和用户个体数据(针对单人的信息)
18、聚合窗口函数和聚合函数的区别
(1)聚合函数
对一组值计算,返回一个单一值,如 SUM、AVG 等。
常和 GROUP BY 一起用,结果集行数会因分组而减少或只有一个值(无分组时)。
计算是基于整个数据集或分组后的组。
(2)聚合窗口函数
也进行聚合操作,但为每一行返回一个聚合值。
结果集行数和原始数据集相同。
通过定义窗口(分区、排序、范围等)在滑动窗口内计算。
19、常见的连接方式有哪些?
内连接(INNER JOIN):返回两表中满足连接条件的行,用于获取相互关联的数据。
左连接(LEFT JOIN):返回左表所有行和右表中匹配的行,用于完整保留左表记录。
右连接(RIGHT JOIN):返回右表所有行和左表中匹配的行,用于完整保留右表记录。
全连接(FULL JOIN):返回两表所有行,用于合并全部信息。
交叉连接(CROSS JOIN):返回两表所有行的组合,用于生成所有可能的组合情况。
20、通配符有哪些?
%(百分号):在 SQL 的LIKE操作符中使用,可匹配零个或多个字符。
_(下划线):在LIKE操作符中使用,只能匹配单个字符。
[](方括号):在LIKE操作符中使用,用于指定一个字符集合,匹配集合中的任意一个字符。
原文地址:https://blog.csdn.net/m0_47147246/article/details/145160258
免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!