Hive企业级调优[2]—— 测试用表

🕗 发布于 2024-09-22 21:48 hive hadoop 数据仓库

测试用表

订单表 (2000万条数据)

支付表 (600万条数据)

商品信息表 (100万条数据)

省份信息表 (34条数据)

测试用表

订单表 (2000万条数据)

1）表结构

id (订单id)	user_id (用户id)	product_id (商品id)	province_id (省份id)	create_time (下单时间)	product_num (商品件数)	total_amount (订单金额)
10000001	125442354	15003199	1	2020-06-14 03:54:29	3	100.58
10000002	192758405	17210367	1	2020-06-14 01:19:47	8	677.18

2）建表语句

hive (default)> 
drop table if exists order_detail;
 create table order_detail(
     id           string comment '订单id',
     user_id      string comment '用户id',
     product_id   string comment '商品id',
     province_id  string comment '省份id',
     create_time  string comment '下单时间',
     product_num  int comment '商品件数',
     total_amount decimal(16, 2) comment '下单金额'
 )
 partitioned by (dt string)
 row format delimited fields terminated by '\t';

3）数据装载

将 order_detail.txt 文件上传到 hadoop12 节点的 /opt/module/hive/datas/ 目录，并执行以下导入语句。(数据可根据表结构自行模拟数据)

注：文件较大，请耐心等待。

hive (default)> load data local inpath '/opt/module/hive/datas/order_detail.txt' overwrite into table order_detail partition(dt='2020-06-14');

支付表 (600万条数据)

1）表结构

id (支付id)	order_detail_id (订单id)	user_id (用户id)	payment_time (支付时间)	total_amount (订单金额)
10000001	17403042	131508758	2020-06-14 13:55:44	391.72
10000002	19198884	133018075	2020-06-14 08:46:23	657.10

2）建表语句

hive (default)> 
drop table if exists payment_detail;
 create table payment_detail(
     id              string comment '支付id',
     order_detail_id string comment '订单明细id',
     user_id         string comment '用户id',
     payment_time    string comment '支付时间',
     total_amount    decimal(16, 2) comment '支付金额'
 )
 partitioned by (dt string)
 row format delimited fields terminated by '\t';

3）数据装载

将 payment_detail.txt 文件上传到 hadoop12 节点的 /opt/module/hive/datas/ 目录，并执行以下导入语句。(数据可根据表结构自行模拟数据)

注：文件较大，请耐心等待。

hive (default)> load data local inpath '/opt/module/hive/datas/payment_detail.txt' overwrite into table payment_detail partition(dt='2020-06-14');

商品信息表 (100万条数据)

1）表结构

id (商品id)	product_name (商品名称)	price (价格)	category_id (分类id)
1000001	CuisW	4517.00	219
1000002	TBtbp	9357.00	208

2）建表语句

hive (default)> 
drop table if exists product_info;
 create table product_info(
     id           string comment '商品id',
     product_name string comment '商品名称',
     price        decimal(16, 2) comment '价格',
     category_id  string comment '分类id'
 )
 row format delimited fields terminated by '\t';

3）数据装载

将 product_info.txt 文件上传到 hadoop12 节点的 /opt/module/hive/datas/ 目录，并执行以下导入语句。(数据可根据表结构自行模拟数据)

hive (default)> load data local inpath '/opt/module/hive/datas/product_info.txt' overwrite into table product_info;

省份信息表 (34条数据)

1）表结构

id (省份id)	province_name (省份名称)
1	北京
2	天津

2）建表语句

hive (default)> 
drop table if exists province_info;
 create table province_info(
     id            string comment '省份id',
     province_name string comment '省份名称'
 )
 row format delimited fields terminated by '\t';

3）数据装载

将 province_info.txt 文件上传到 hadoop12 节点的 /opt/module/hive/datas/ 目录，并执行以下导入语句。(数据可根据表结构自行模拟数据)

hive (default)> load data local inpath '/opt/module/hive/datas/province_info.txt' overwrite into table province_info;

注：需要下载源数据的，评论区私俺

原文地址：https://blog.csdn.net/qq_45115959/article/details/142366065

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：如何理解“存储程序”的概念
下一篇：VM-Ubantu中使用vscode头文件报错——解决办法

Linux便捷查询使用手册第十二章：虚拟化与容器
虚拟化是指在单一硬件平台上运行多个虚拟计算机（虚拟机），每个虚拟机可以运行不同的操作系统和应用程序。虚拟化通过抽象物理硬件资源，使其能够在多个虚拟环境中共享。容器是轻量级的虚拟化技术，通过将应用及其依
阅读更多2024-11-16
Javaweb-day11案例（文件）
文件上传前端页面三要素1.在form表单中，要定义一个表单项，类型为file2.表单的提交方式必须得是POST方式下面是讲义里面的内容补充上传文件的原始form表单，要求表单必须具备以下三点（上传文件
阅读更多2024-11-16
深入理解 Linux top命令：用法详解与使用示例
linux topu命令界面各项介绍和一些组合命令介绍。
阅读更多2024-11-16
二叉树Golang
二叉树，深度优先搜索，广度优先搜索
阅读更多2024-11-16
Linux篇（权限管理命令）
在多用户计算机系统的管理中，权限是指某个特定的用户具有特定的系统资源使用权利在Linux 中分别有读、写、执行权限：权限针对文件权限针对目录读r表示可以查看文件内容；cat表示可以(ls)查看目录中存
阅读更多2024-11-16
【代码随想录day30】【C++复健】452. 用最少数量的箭引爆气球；435. 无重叠区间；763. 划分字母区间
而这也这是我想复杂的地方。
阅读更多2024-11-16
mysql存储过程模拟数据批量生成的函数模板
下面是个模板，需要自己。
阅读更多2024-11-16
使用 PyAnsys 在 Ansys 随机振动分析中检索螺栓连接中的力和应力
随机振动模拟通常用于评估组件承受运输过程中振动的能力。随机振动分析利用先前模态分析的频率和模式内容对通过功率谱密度 (PSD) 负载定义的频谱和功率内容进行线性叠加。在大多数装配模型中，螺栓连接（由求
阅读更多2024-11-16
C语言之MakeFile
定义: 变量名=变量值使用:取值;${变量名}或$(变量名)拼接:变量名+=值注意:1,makefile变量名可以以数字开头2,变量的大小是敏感的3,变量一般都在makefile的头部定义4,变量几乎
阅读更多2024-11-16
动态规划 —— 子数组系列-最大子数组和
53. 最大子数组和 - 力扣（LeetCode）
阅读更多2024-11-16

Hive企业级调优[2]—— 测试用表

测试用表

订单表 (2000万条数据)

支付表 (600万条数据)

商品信息表 (100万条数据)

省份信息表 (34条数据)

相关文章