自学内容网 自学内容网

Hadoop实战-电商离线数仓学习笔记4.0

数据仓库建模方法
1-ER模型
根据实体关系建模,满足三范式规范
2-维度建模
区分事实表和维度表,事实对应业务过程,维度对应业务过程发生时所处的环境,事实是不可拆分的
对于缓慢变化的维度可以用拉链表存储
通过对开始日期和结束日期做约束,可以得到某时间点的全部数据切片
在这里插入图片描述
构建业务总线矩阵
在这里插入图片描述
在这里插入图片描述
ODS层建的表-业务表
日志表,活动信息表(全量),活动规则表(全量),品类表(全量),省份表(全量),品牌表(全量),优惠券表(全量)
购物车表(增量),评论表(增量),收藏表(增量),订单明细表(增量),支付表(增量),退款表(增量),用户表(增量)
PARTITIONED BY (dt STRING)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ‘\t’
DIM层建的表-维度表
商品维度表,优惠券维度表,活动维度表,地区维度表,日期维度表,用户维度表
DWD层建的表-事实表
交易域加购事实表,交易域下单事务事实表,交易域支付成功事实表,
DWS层建的表-汇总表
用户粒度最近n日订单汇总表, 访客页面粒度浏览量n日汇总表

ADS层

流量主题-最近1-3-7天访客数表
在这里插入图片描述

补充知识-侧写➕炸裂
EXPLODE 函数 是Hive 中的一种用户定义的表函数(UDTF),用于将数组或映射结构中的复杂的数据结构每个元素拆分为单独的行。这在处理复杂数据时非常有用,尤其是在需要将嵌套数据“打散”以便更好地分析时。
在这里插入图片描述

SELECT user_id, preference
FROM users
LATERAL VIEW explode(preferences) exploded_table AS preference;

在这里插入图片描述
LATERAL VIEW 允许我们将 UDTF 的输出与原始表中每一行的数据连接在一起,这样就可以在查询中灵活地处理嵌套数据。
在这里插入图片描述

SELECT word, COUNT(*) AS frequency
FROM comments
LATERAL VIEW explode(split(comment, ' ')) exploded_words AS word
GROUP BY word;

在这里插入图片描述
用户留存率
在这里插入图片描述
用户7日内连续三天下单用户
在这里插入图片描述
在这里插入图片描述


原文地址:https://blog.csdn.net/little_TianYe/article/details/145281276

免责声明:本站文章内容转载自网络资源,如侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!