Hive数仓操作（四）

🕗 发布于 2024-09-30 07:07 hive hadoop 数据仓库 大数据 数据库

一、Hive 创建表案例一（ARRAY数组类型）

1. 准备数据文件

首先，准备一个名为 stu2.txt 的文件，文件内容示例如下：

1001    Alice    fish,cat
1002    Bob      dog,rabbit
1003    Charlie  bird

注意：

确保字段之间使用制表符（\t）分隔。
数组元素之间使用逗号（,）分隔。

2. 上传文件到 HDFS

使用以下命令将 stu2.txt 文件上传到 HDFS 指定目录：

hadoop fs -put stu2.txt /user/root/a001/

3. 创建 Hive 数据库

为了管理数据，可以创建一个名为 stu 的数据库（如果还未创建）：

CREATE DATABASE IF NOT EXISTS stu;

4. 使用数据库

切换到刚创建的 stu 数据库：

USE stu;

5. 创建 Hive 表

在 Hive 中创建表 stu03，用来存储数据：

CREATE TABLE stu03 (
    id INT,
    name STRING,
    hobby ARRAY<STRING>
)
ROW FORMAT DELIMITED 
FIELDS TERMINATED BY '\t'
COLLECTION ITEMS TERMINATED BY ',';

ROW FORMAT DELIMITED: 指定表的行格式为分隔格式。这意味着行中的各个字段是用特定的分隔符来分隔的。
FIELDS TERMINATED BY ‘\t’: 指定字段之间的分隔符为制表符（Tab）。这意味着在数据文件中，各个字段是通过制表符来分开。
COLLECTION ITEMS TERMINATED BY ‘,’: 指定数组类型字段（在这里是 hobby）中的各个元素是用逗号分隔的。这意味着在插入数据时，例如 hobby 字段的值可以为 fish,cat，而这两个爱好是通过逗号来分隔的。

6. 加载数据到表中

将 HDFS 中的 stu2.txt 文件中的数据加载到 stu03 表中：

LOAD DATA INPATH '/user/root/a001/stu2.txt' INTO TABLE stu03;

7. 测试查询数据

查询所有数据

SELECT * FROM stu03;

查询特定字段和处理可能缺失的数组元素

SELECT 
    id, 
    name, 
    hobby[0] AS first_hobby, 
    hobby[1] AS second_hobby, 
    NVL(hobby[2], '没有') AS third_hobby
FROM stu03;

查询数组元素个数

SELECT 
    id, 
    name, 
    hobby, 
    SIZE(hobby) AS hobby_count 
FROM stu03;

8. 多次查询的示例

在同一条查询中返回多个字段和计算结果：

SELECT 
    a.*, 
    SIZE(hobby) AS n, 
    hobby[0] AS h1, 
    hobby[1] AS h2, 
    NVL(hobby[2], 'none') AS h3, 
    NVL(hobby[3], '') AS h4 
FROM stu03 a;

9. 插入新数据

向 stu03 表中插入一条新数据：

INSERT INTO stu03 
VALUES (1005, 'Tom', ARRAY('fish', 'mouse'));

会在/user/hive/warehouse/stu.db/stu03/目录追加生成小文件，如000000_0 ，一般不使用插入操作。

二、Hive 创建表案例二（ARRAY数组类型）

1. 数据文件

假设有一个名为 stu04.txt 的文件：

123|华为Mate50|id:1111,token:2222,user_name:zhangsan1
456|华为Mate60|id:1113,token:2224,user_name:zhangsan3
89|小米14|id:1114,token:2225,user_name:zhangsan4
1235|小米13|id:1115,token:2226,user_name:zhangsan5
4562|OPPO A5|id:1116,token:2227,user_name:zhangsan6

2. 创建表

接下来，创建一个包含 map 类型数据的 Hive 表。注意修正语法和格式错误：

DROP TABLE IF EXISTS stu03;

CREATE TABLE stu03 (
    sku_id STRING COMMENT '商品id',
    sku_name STRING COMMENT '商品名称',
    state_map MAP<STRING, STRING> COMMENT '商品状态信息'
)
ROW FORMAT DELIMITED 
FIELDS TERMINATED BY '|'
COLLECTION ITEMS TERMINATED BY ','
MAP KEYS TERMINATED BY ':';

1）. ROW FORMAT DELIMITED

表示该表的行格式是分隔的。也就是说，数据行中的每个字段都是用特定的字符分隔开的。

2）. FIELDS TERMINATED BY ‘|’

指定字段（列）之间的分隔符。在这个例子中，字段之间用 | （竖线）来分隔。
例如，如果一行数据是 123|华为Mate60|id:1111,token:2222,user_name:zhangsan1，那么这个行的三个字段分别是 123、华为Mate60 和 id:1111,token:2222,user_name:zhangsan1。

3）. COLLECTION ITEMS TERMINATED BY ‘,’

这一部分指定了集合类型中的元素（如数组或映射）之间的分隔符。在这个例子中，集合中的元素用 , （逗号）来分隔。
例如，如果某个字段的值是 id:1111,token:2222,user_name:zhangsan1，那么这个字符串被看作一个集合，元素之间用逗号分隔。

4）. MAP KEYS TERMINATED BY ‘:’

这一部分指定了映射类型（即键值对）中键和值之间的分隔符。在这个例子中，键和值用 : （冒号）来分隔。
例如，如果某个字段的值是 id:1111，那么这里的键是 id，值是 1111。

示例

结合这些定义，假设我们有以下一行数据：

123|华为Mate10|id:1111,token:2222,user_name:zhangsan1

这行数据表示：
- 第一个字段（商品 ID）是 123
- 第二个字段（商品名称）是 华为Mate60
- 第三个字段是一个映射，包含三个键值对：
  - 键 id 的值是 1111
  - 键 token 的值是 2222
  - 键 user_name 的值是 zhangsan1

3. 加载数据

将数据文件加载到刚创建的表中：

LOAD DATA LOCAL INPATH '/opt/module/datas/stu04.txt' INTO TABLE stu03;

4. 查询数据

示例查询1

SELECT 
    sku_id,
    sku_name,
    state_map 
FROM 
    stu03;

解析

sku_id: 选择 SKU 的 ID。
sku_name: 选择 SKU 的名称。
state_map: 选择整个 state_map 列，这将返回该列的所有内容（键值对）。

结果（只展示了三行）

sku_id	sku_name	state_map
1	华为Mate50	{“id”:“1111”, “token”:“2222”, “user_name”:“zhangsan”}
2	华为Mate60	{“id”:“1113”, “token”:“2224”, “user_name”:“zhangsan2”}
3	小米14	{“id”:“1114”, “token”:“2225”, “user_name”:“zhangsan3”}

示例查询2：直接提取特定键

SELECT 
    sku_id,
    sku_name,
    state_map['id'] AS id,
    state_map['token'] AS token,
    MAP_KEYS(state_map) AS keys,
    MAP_VALUES(state_map) AS values,
    SIZE(state_map) AS number_of_entries 
FROM 
    stu03;

解析

state_map['id'] AS id: 从 state_map 中提取 id。
state_map['token'] AS token: 从 state_map 中提取 token。
MAP_KEYS(state_map) AS keys: 获取 state_map 中所有的键。
MAP_VALUES(state_map) AS values: 获取 state_map 中所有的值。
SIZE(state_map) AS number_of_entries: 获取 state_map 中的键值对数量。

结果

sku_id	sku_name	id	token	keys	values	number_of_entries
1	华为Mate50	1111	2222	[“id”, “token”, “user_name”]	[“1111”, “2222”, “zhangsan”]	3
2	华为Mate60	1113	2224	[“id”, “token”, “user_name”]	[“1113”, “2224”, “zhangsan2”]	3
3	小米14	1114	2225	[“id”, “token”, “user_name”]	[“1114”, “2225”, “zhangsan3”]	3

示例查询3：使用 `MAP_KEYS` 和索引

SELECT 
    sku_id,
    sku_name,
    MAP_KEYS(state_map)[0] AS first_key,
    MAP_VALUES(state_map)[0] AS first_value,
    MAP_KEYS(state_map) AS keys,
    MAP_VALUES(state_map) AS values,
    SIZE(state_map) AS number_of_entries 
FROM 
    stu03;

解析

MAP_KEYS(state_map)[0] AS first_key: 获取 state_map 中的第一个键。
MAP_VALUES(state_map)[0] AS first_value: 获取 state_map 中的第一个值。
MAP_KEYS(state_map) AS keys: 获取所有键。
MAP_VALUES(state_map) AS values: 获取所有值。
SIZE(state_map) AS number_of_entries: 获取键值对数量。

结果

根据相同的 state_map 内容，查询结果将显示如下：

sku_id	sku_name	first_key	first_value	keys	values	number_of_entries
1	华为Mate50	id	1111	[“id”, “token”, “user_name”]	[“1111”, “2222”, “zhangsan”]	3
2	华为Mate60	id	1113	[“id”, “token”, “user_name”]	[“1113”, “2224”, “zhangsan2”]	3
3	小米14	id	1114	[“id”, “token”, “user_name”]	[“1114”, “2225”, “zhangsan3”]	3

原文地址：https://blog.csdn.net/m0_58076578/article/details/142643482

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：Go实现RabbitMQ 死信队列、优化
下一篇：神经网络在多分类问题中的应用

MySQL数据库基础
在过去的mysql中主要是使用的utf8mb3，但是mysql显示的就是utf8，中mysql8中区分显示了。类似于不同的编译器，虽然C/C++的代码是一样的，但是预处理、编译、汇编、链接这些过程却不
阅读更多2024-09-30
Percona Monitoring and Management
Percona Monitoring and Management (PMM)是一款开源的专用于管理和监控MySQL、MongoDB、PostgreSQL。
阅读更多2024-09-30
鸿蒙开发（NEXT/API 12）【已连接穿戴设备查询】手机侧应用开发
Wear Engine提供查询用户已连接的穿戴设备列表（即支持Wear Engine能力且与手机侧运动健康App处于连接状态的穿戴设备）的接口。
阅读更多2024-09-30
Redis数据库
本篇文章介绍了redis的相关知识，并使用springboot集成redis，实现缓存和分布式锁，后续会对文章勘误及更新~~
阅读更多2024-09-30
旧版的存档
【代码】旧版的存档。
阅读更多2024-09-30
Spring Boot 封装统一返回结果及全局异常处理
为了更细致地控制异常处理，我们可以定义一些自定义异常。然后，在全局异常处理器中添加对自定义异常的处理。通过封装统一的返回结果和全局异常处理，我们可以让Spring Boot应用更加健壮和易于维护。这种
阅读更多2024-09-30
【C++】IO流
C++IO流，包含输入输出流、文件流、字符流
阅读更多2024-09-30
低至1元/小时：国庆七天，30元通关《黑神话：悟空》！
随着《黑神话：悟空》自8月20日全球同步上线，正式登陆PC、PS5平台以来，以其精湛的画面和流畅的战斗体验，在发售三天后，该作的全平台销量超过1000万套，打破中国游戏历史记录，被媒体称为“中国首款3
阅读更多2024-09-30
阿里巴巴国际站获取商品详情item_get接口技术分享
item_get API接口是阿里巴巴开放平台提供的一个重要接口，它允许商家通过API调用，获取阿里巴巴平台上的商品详细信息。这些信息包括商品标题、价格、库存、属性、描述等，为商家提供了全面、准确的商
阅读更多2024-09-30
软件测试谣言二三事，认真你就输了
软件测试的职业寿命，取决于互联网行业能存活多久，至少目前看来，这个职业没有消失的风险，至于你能在这个职业待多久，那取决于你自己的能力，我见过不少超过35岁的老员工还在测试的职位上兢兢业业。以广州为例，
阅读更多2024-09-30