hive分区分桶、数据倾斜总结

🕗 发布于 2024-12-09 19:53 hive hadoop 数据仓库

一、hive的基本概念

hive是一个构建在hadoop上的数据仓库工具，可以将结构化的数据文件映射为一张数据库表并提供数据查询功能

二、hive的特点

（1）数据是存储在hdfs上

（2）底层是将sql转换为MapReduce任务进行计算

（3）执行程序是运行在yarn上

三、hive表数据如何修改

（1）可以删除原表，然后新建一个与原表的表名、表结构相同的表，然后将需要修改的值更改后重新复制到新表；

1）创建一个新表，其结构与原表相同

CREATE TABLE tmp_table ...;

2）使用INSERT语句，将原表中的数据复制到新表，并对需要修改的值进行更改

INSERT INTO TABLE tmp_table
SELECT col1,col2,CASE WHEN col3=修改值 THEN 新值 ELSE col3 END,col4,...
FROM src_table;

3）删除原表

DROP TABLE src_table;

4）将新表重命名为原表的名字

ALTER TABLE tmp_table RENAME TO src_table;

（2）也可以使用insert overwrite语句，结合where条件对需要修改的值更改过后，再将原表数据覆盖回去。

INSERT OVERWRITE TABLE src_table
SELECT col1,col2,col3,col4,... FROM src_table WHERE col3!=修改值
UNION ALL
SELECT col1原来值,col2原来值,col3新值,col4原来值,...;

四、hive分区表和桶表的区别

区别：从表现形式上来看：分区表是一个目录，而分桶表是一个文件；

从数量上来看：分区表的分区个数是可以增长的，而分桶表一旦指定完之后就不能增长；

从依据上来看：分区表需要手动添加分区，分区时依据的是表外字段，而分桶表是按照表内字段

从数据分布上来看：分区表在根据分区字段进行分区时可能会导致数据分布不均的情况，而分桶表是根据 hash值进行划分的，数据分布比较均匀。

五、如何给hive表增加一个分区

增加分区：通过alter修改表信息，然后在表名后面通过add添加一个经过判断后不存在的分区

删除分区同上，是通过drop删除一个经过判断后存在的分区

六、hive的数据倾斜

数据倾斜：

hive的数据倾斜通常出现在MapReduce处理任务时，在不同节点并行处理数据的过程中，由于某一节点处理的数据远超其它节点的数据时，会导致此节点处理数据的时间远超出其它节点的时间甚至导致任务失败

原因及解决方案：

（1）表关联时，关联字段null值过多；可以将空字段与非空字段分开检索，然后用union all合并查询结果，也可以使用外连接关联两表，然后对关联字段为的进行赋值，使其不为空；

（2）关联字段的数据类型不同；把不同的数据类型转为相同的；

（3）group by的维度过小，导致reduce处理一个分区的数据远多于另一个分区的数据；可以开

启Map端的聚合操作并设置groupby参数。

原文地址：https://blog.csdn.net/weixin_64860388/article/details/144334013

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：第3章：文本样式 --[CSS零基础入门]
下一篇：在Java中几种常用数据压缩算法的实现及其优劣势

.NET(C#) 如何配置用户首选项及保存用户设置
.NET(C#) 如何配置用户首选项及保存用户设置
阅读更多2024-12-14
【最新】北大数字普惠金融指数数据集-省市县（2011-2023年）
郭峰,王靖一,王芳,孔涛,张勋,程志云.测度中国数字普惠金融发展:指数编制与空间特征[J].经济学(季刊),2020,19(04):1401-1418.时间跨度：省级和城市级指数时间跨度为2011-2
阅读更多2024-12-14
GESP202412 四级【Recamán】题解（AC）
a11ak−1−kkakak−1−kak−1k小杨想知道 Recamán 数列的前n项从小到大排序后的结果。手动计算非常困难，小杨希望你能帮他解决这个问题。
阅读更多2024-12-14
IDEA遇到EasyConnect中的网络资源无法访问的问题
版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。原文链接：https://blog.csdn.net/wanshanyu_/article/de
阅读更多2024-12-14
双目摄像头标定方法
此时已经完成标定，左下角为反投影误差，右边为外参可视化。将双目左右目拍的图像上传（左右目最好不少于20张）此时回到主页面，即可看到成功导出。把这些误差大的删除即可。
阅读更多2024-12-14
Servlet、omcat服务器架构与工作原理
Servlet是运行在服务器端的Java程序，它的主要职责之一是接收并处理来自客户端（如浏览器）的HTTP请求。当客户端发送一个请求到服务器时，Servlet可以解析请求中的信息，例如请求的URL路径
阅读更多2024-12-14
Vue生命周期钩子函数：深入解析与实践
作为高级Vue前端开发人员，对Vue组件的生命周期钩子函数有着深刻的理解是至关重要的。生命周期钩子函数是指在Vue组件的创建、更新、销毁等过程中，Vue自动调用的一系列方法。通过这些钩子函数，我们可以
阅读更多2024-12-14
安卓开发--使用android studio发布APP
app发布
阅读更多2024-12-14
数据结构与算法学习笔记----拓扑排序
@ author: 明月清了个风。
阅读更多2024-12-14
python 将数据保存到现有的Excel文件的新工作表
out_file = ‘query.xlsx’df1 = pd.DataFrame(out_data)若直接写入：df1.to_excel(out_file, index=False, sheet_n
阅读更多2024-12-14