Hive 分桶表的创建与填充操作详解

🕗 发布于 2024-12-07 12:09 hive hadoop 数据仓库

Hive 分桶表的创建与填充操作详解

在 Hive 数据处理中，分桶表是一个极具实用价值的功能，它相较于非分桶表能够实现更高效的采样，并且后续还可能支持诸如 Map 端连接等节省时间的操作。不过，值得注意的是，在向表写入数据时，创建表时指定的分桶规则并不会被强制实施，所以有可能出现表的元数据所宣称的属性与表实际的数据布局不一致的情况，而这显然是我们要尽力避免的。接下来，详细介绍如何正确地创建和填充分桶表，以及在不同 Hive 版本中的相关要点。

一、创建分桶表

首先来看创建分桶表的操作，示例代码如下：

CREATE TABLE user_info_bucketed(user_id BIGINT, firstname STRING, lastname STRING)
COMMENT 'A bucketed copy of user_info'
PARTITIONED BY(ds STRING)
CLUSTERED BY(user_id) INTO 256 BUCKETS;

在上述创建表的语句中，我们通过 CLUSTERED BY 子句指定了基于 user_id 列来进行分桶，并且将其划分为 256 个桶。这里可以根据实际业务需求和数据量等因素灵活选择分桶的列以及桶的数量。

二、填充分桶表

（一）Hive 0.x 和 1.x 版本

对于 Hive 0.x 和 1.x 版本，填充分桶表需要执行以下操作：

set hive.enforce.bucketing = true;  -- （注意：在 Hive 2.x 及以后版本不需要此设置）
FROM user_id
INSERT OVERWRITE TABLE user_info_bucketed
PARTITION (ds='2009-02-25')
SELECT userid, firstname, lastname WHERE ds='2009-02-25';

在这些早期版本中，命令 set hive.enforce.bucketing = true; 起着关键作用，它允许 Hive 根据表的定义自动选择正确的 Reducer 数量以及按照聚类列（Cluster By 列）来进行相应操作。否则的话，就需要手动设置 Reducer 的数量与桶的数量一致，比如通过 set mapred.reduce.tasks = 256; 这样的语句来设置，并且在 SELECT 语句中要有 CLUSTER BY... 子句。

（二）Hive 2.x 版本及之后

从 Hive 2.x 版本开始，情况有所变化，不再需要设置 hive.enforce.bucketing = true 这条命令了。Hive 在处理分桶表填充时更加智能和自动化，会按照创建表时定义的分桶规则自动进行相应的操作，大大简化了操作流程，降低了因配置不当导致分桶错误的风险。

例如，我们依然可以使用类似下面这样简洁的语句来向分桶表插入数据：

FROM user_id
INSERT OVERWRITE TABLE user_info_bucketed
PARTITION (ds='2009-02-25')
SELECT userid, firstname, lastname WHERE ds='2009-02-25';

（三）Hive 3.X 版本

在 Hive 3.X 版本中，除了延续 2.x 版本在分桶表填充方面的便利性和自动化特点之外，在性能优化以及与其他功能的兼容性等方面又有了进一步提升。

例如，在与一些新的存储格式或者查询优化特性结合使用时，分桶表能够更好地发挥其优势。在大数据集的处理场景下，如果使用了 Hive 3.X 版本的分桶表，配合分区表以及一些新的查询优化器改进，能够更高效地实现数据的筛选、聚合等操作，进一步提高数据处理的速度和效率。

同时，Hive 3.X 版本在处理分桶表数据时，对于数据的一致性和准确性校验也更加严格，能够更好地避免因数据写入、读取过程中的异常情况（如网络波动、硬件故障等临时因素导致的数据部分写入失败等）而引起的分桶数据错乱问题，确保分桶表的数据质量始终保持在一个较高的水平。

三、数据在桶中的分配方式

了解完不同版本下分桶表的填充操作后，我们再来深入探讨一下 Hive 是如何将数据行分配到各个桶中的呢？一般来说，桶编号是由表达式 hash_function(bucketing_column) mod num_buckets 来确定的（其中还涉及 0x7FFFFFFF，但这个不是特别重要）。哈希函数（hash_function）取决于分桶列的数据类型。

整型（int）情况：对于整型数据，比较简单，例如 hash_int(i) == i。举个例子，如果 user_id 是整型，并且有 10 个桶，那么所有以 0 结尾的 user_id 值会被分配到桶 1，以 1 结尾的会被分配到桶 2，依此类推。
其他数据类型情况：对于其他数据类型，情况就稍微复杂一些了。特别是 BIGINT 类型的哈希值与它本身的值是不一样的。而对于字符串（STRING）或者复杂数据类型，其哈希值是根据该值派生出来的一个数字，但通常不是人类容易识别的形式。比如，如果 user_id 是字符串类型，那么在桶 1 中的 user_id 值大概率不会是以 0 结尾的。总体而言，基于哈希来分配数据行能使数据在各个桶中均匀分布，保证了分桶表在后续进行各类操作（如采样、连接等）时的高效性和合理性。

四、可能出现的问题

在分桶表的使用过程中，即使是在 Hive 不断升级优化的各个版本下，也还是存在一些可能导致问题出现的情况需要我们留意。

只要按照上述不同版本对应的语法和规则进行操作，分桶表一般都能被正确填充。但如果在插入数据和读取数据时，分桶列的数据类型不一致，或者手动按照与表定义不同的值进行聚类（CLUSTER BY）操作，就可能会出现问题。另外，在 Hive 3.X 版本中，虽然对数据一致性等方面有更好的保障，但如果使用了一些自定义的存储插件或者与第三方工具集成时，若不遵循 Hive 3.X 的相关规范和接口要求，也有可能引发分桶数据的兼容性问题，例如数据无法正确识别分桶结构、无法高效地进行基于分桶的查询操作等情况。

原文地址：https://blog.csdn.net/qq_68076599/article/details/144291158

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：Android 实现中英文切换
下一篇：【漏洞复现】快递微信小程序系统 httpRequest 任意文件读取漏洞复现

Python毕业设计选题：基于Flask的医疗预约与诊断系统
进行系统测试，能够及时地发现、直接地找出在实际运行中的问题，排除基本功能的问题，提前解决影响用户基本使用的大问题，大大减少了用户遇到的各种问题，降低了二次开发的成本，不论是对用户的使用体验和日后的维护
阅读更多2024-12-28
STM32-I2C通信
软件撰写通信功能（根据引脚进行宏定义）、撰写基本通信单元（GPIO初始化、数据和时钟高低电平控制宏定义（写一bit），读1bit，起始（重复起始）、终止、发送一个字节、接收一个字节、发送应答、接收应答
阅读更多2024-12-28
Oracle 11G还有新BUG？ORACLE 表空间迷案！
前段时间遇到一个奇葩的问题，在开了SR和oracle support追踪两周以后才算是有了不算完美的结果，在这里整理出来给大家分享。
阅读更多2024-12-28
ADBKeyBoard 安装 (中文输入)
ADBKeyboard 在这些情况下会有所帮助，尤其是在设备自动化和测试中。
阅读更多2024-12-28
天天 AI-241226：今日热点-OpenAI正研发实体机器人，终结者时代还是来了
AI技术正在多个领域实现突破，从实体机器人的研发到企业级生成式AI的应用趋势，再到AI安全平台的融资消息，每一项技术的发展都在推动着我们进入一个全新的智能时代。这些技术的进步不仅推动了产业的革新，也为
阅读更多2024-12-28
LeetCode--347.前k个高频元素（使用优先队列解决）
记录博主LeetCode算法思路。
阅读更多2024-12-28
【视觉惯性SLAM：六、图优化库(1):g2o的使用指南】
g2o 提供了一些基本顶点类，但也支持用户自定义顶点。自定义顶点需要继承 g2o::BaseVertex 并实现相应的虚函数。示例：自定义一个三维点顶点// 定义一个3维点的顶点public:// 初
阅读更多2024-12-28
XML 简介
XML是一种强大的数据表示语言，它通过使用用户定义的标签来结构化数据，使得数据在不同的系统和应用程序之间更容易地交换和共享。了解XML的基本概念、用途、语法和工具，以及它在现实世界中的应用，对于开发者
阅读更多2024-12-28
【Rust自学】7.3. use关键字 Pt.1：use的使用与as关键字
`use`的作用是将路径导入到当前作用域内。而引入的内容仍然是遵守私有性原则，也就是只有公共的部分引入进来才可以用。
阅读更多2024-12-28
ES-聚合分析
ES-聚合分析。
阅读更多2024-12-28

Hive 分桶表的创建与填充操作详解