Hive数仓操作（十四）

🕗 发布于 2024-10-05 04:09 hive hadoop 数据仓库 大数据 数据库

一、Hive的DDL语句

在 Hive 中，DDL（数据定义语言）语句用于数据库和表的创建、修改、删除等操作。以下是一些重要的 DDL 语句：

1. 创建数据库和表

创建数据库

CREATE DATABASE IF NOT EXISTS database_name;

创建表

CREATE TABLE table_name (
  column1_name data_type,
  column2_name data_type,
  ...
)
COMMENT 'Table comment'
STORED AS file_format;

2. 修改表

重命名表

ALTER TABLE old_table_name RENAME TO new_table_name;

添加列

ALTER TABLE table_name ADD COLUMNS (new_column_name1 data_type , new_column_name2 data_type);

重命名列
```
ALTER TABLE table_name CHANGE old_column_name new_column_name data_type;
```
- CHANGE 不能进行从字符串到数字类型或从大数字类型到小数字类型的转换
删除列:
- 使用 REPLACE COLUMNS 可以“删除”某些列，其实本质是通过重新定义表的列结构来实现。
- 实际上，删除的列的数据不会立即物理删除，而是从表结构中移除。
- 在 REPLACE COLUMNS 中，需要列出所有想要保留的列及其数据类型。
- 未列出的列将被“删除”。
- 限制：只能从末尾开始删除列。如果从中间或开头删除，可能会导致表结构的错误，且无法恢复这些列的数据。

示例

假设有一个表 shop_fq，包含以下列：

CREATE TABLE shop_fq (
  id INT,
  name STRING,
  price DECIMAL(10, 2),
  category STRING
);

如果需要删除 price 和 category 列，只保留 id 和 name，可以这样操作：

ALTER TABLE shop_fq REPLACE COLUMNS (
  id INT,
  name STRING
);

注意

数据的物理存在: 虽然列被“删除”，但数据仍然存在于文件中，只是 Hive 不再管理这些数据。

3. 删除数据库和表

删除数据库

DROP DATABASE IF EXISTS database_name CASCADE;

删除表
```
DROP TABLE IF EXISTS table_name;
```

4. 分区和分桶

创建分区表

CREATE TABLE table_name (
  column1_name data_type,
  column2_name data_type
)
PARTITIONED BY (partition_column_name data_type)
STORED AS file_format;

创建分桶表

CREATE TABLE table_name (
  column1_name data_type,
  column2_name data_type
)
CLUSTERED BY (bucket_column_name) INTO num_buckets BUCKETS
STORED AS file_format;

5. 修改分区

添加分区

ALTER TABLE table_name ADD PARTITION (partition_column='value');

删除分区

ALTER TABLE table_name DROP PARTITION (partition_column='value');

二、Hive的子查询

查询出和10号部门的工作岗位相同的其他部门的员工信息

1. `IN` 子查询（由于HIVE莫名的不可抗力会经常报错，建议用后两种方法）

SELECT * 
FROM emp 
WHERE job IN (SELECT job FROM emp WHERE deptno=10) 
AND deptno != 10;

从表 emp 中选择所有员工。
条件是员工的 job 在子查询返回的职位列表中。
子查询从 deptno 为 10 的部门中选择 job。
还要求 deptno 不是 10，以排除自身。

2. `LEFT SEMI JOIN`

SELECT * 
FROM (SELECT * FROM emp WHERE deptno != 10) a
LEFT SEMI JOIN (SELECT job FROM emp WHERE deptno=10) b
ON a.job = b.job;

从 emp 表中选择 deptno 不等于 10 的员工。
使用 LEFT SEMI JOIN 将这些员工和来自 deptno 为 10 的员工的职位匹配。
LEFT SEMI JOIN 只返回在 b 中匹配的 a 的行，相当于使用 IN 的效果。

3. `EXISTS`

SELECT * 
FROM emp e 
WHERE EXISTS (SELECT 1 FROM emp b WHERE b.deptno=10 AND e.job = b.job) 
AND e.deptno != 10;

从表 emp 中选择所有员工。
使用 EXISTS 子查询检查是否存在 deptno 为 10 且 job 相同的记录。
同时确保 deptno 不等于 10，以排除自身。

原文地址：https://blog.csdn.net/m0_58076578/article/details/142706033

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：从0到1：培训机构排课小程序开发笔记一
下一篇：Qt多线程操作sqlite数据库

freex源码抄写+ue5视频2个+渲染泛读催眠
freex的四个模块共计408741行（含空格和注释），如果周一到周四每天300行，周六日开着和平精英抄1000行，那就每周3200行，128周，ue独立游戏可以在周一到周四晚上进行，UE C++视频
阅读更多2024-10-05
【信息系统项目管理师考题预测】整合管理
信息系统项目整合管理是项目管理中的一个重要领域，其常考题目通常涉及项目整合管理的各个方面，包括内容、作用、重要性、过程、输入输出、工具技术，以及在实际项目中遇到的问题与解决方法等。
阅读更多2024-10-05
魔都千丝冥缘——软件终端架构思维———未来之窗行业应用跨平台架构
在那神秘而复杂的数字世界里，软件的舞台上正上演着一场精彩的剧目。当面对终端单页面中如蛛网般交织的复杂业务逻辑，我们如同在迷雾中摸索前行。多个表单承载着各自的使命，却又有着相同字段的微妙关联，而内容却又
阅读更多2024-10-05
解决MySQL报Incorrect datetime value错误
MySQL报错--解决 Incorrect datetime value错误
阅读更多2024-10-05
【pytorch】权重为0的情况
记录一下上述代码，体现了隐含层和输出层的权重为全0时的结果，可惜奇怪的是李沐的例子中权重改为全0仍然能够成功训练，目前还不知道为什么。
阅读更多2024-10-05
如何实现事件流操作
ystemChrome这个类及其方法只能在main方法中运行，其它地方无法使用
阅读更多2024-10-05
《python语言程序设计》2018版第8章19题几何Rectangle2D类(下)-头疼的几何和数学
看来多用空格按钮先从网上找一下Statement expected, found Py:DEDENTTAB还是空格呢??小小总结如何拆分矩形的四个点呢.我们来小小的测试一下这个函数结果出在哪里呢???
阅读更多2024-10-05
如何提高游戏本地化的质量使用QE门户网站Logrus IT
如果直接在游戏背景下进行测试，可以取得更大的效果，这将需要略高的预算。QE门户网站Logrus IT允许您根据现场本地化版本或截图中的脚本进行评估。请咨询如何验证您的内容质量，并在本页订购此服务
阅读更多2024-10-05
CSP-S 2021 T1廊桥分配
CSP-S 2021 T1廊桥分配
阅读更多2024-10-05
动态SLAM总结一
汇总自己最近看到的有关动态SLAM的论文，主要包括离线以及在线，同时包括三大分类，基于深度学习的、基于可视化的、基于网格占据的。这篇文章只是自己学习过程的一个记录，很多可能不是正确的，仅供参考
阅读更多2024-10-05