hive迁移后修复分区慢，怎么办？

🕗 发布于 2025-01-13 14:54 hive hadoop 数据仓库

我有1个30TB的分区表，客户给的带宽只有600MB，按照150%的耗时来算，大概要迁移17小时。
使用hive自带的修复分区命令（一般修复分区比迁移时间长一点），可能要花24小时。于是打算用前面黄大佬的牛B方案。

Hive增量迁移：创建表结构+数据迁移(distcp)+修复分区

1）创建表结构读取cdh的建表语句，在tbds上创建表

2）数据迁移同distcp

3）分区数据 msck repair table XX（alter table XX recover partitions）修复太慢；改用查询元数据库，对比两边分区数据差异项，然后拼接成add partition语句，来执行。

例如之前修复一个1000个分区的表，需要8h

hive:

一级分区：alter table XX add partition (etl_date=20240101);

alter table XX add partition (etl_date=20240101);

二级分区：alter table XX add partition (etl_yn=2024,etl_mn=01);

alter table XX add partition (etl_yn=2024,etl_mn=01);

改用add partition后，1000个分区的表，10min内

上面是他的方案，我实战测试下

实战测试

1、先查询指定库的分区有几个（源端查）

beeline -u 'xxxx'进入hive

show create table 表名

查看他的分区字段

这里我们能看到他就1个分区，而且字段是dt，接下来我们来查下dt有多少个

select distinct(dt) from xxx
查询这个表30T的表，大概花了110秒

我们能看到他是以日进行分区的。

并且有542行。我们先把这个复制出来，然后拼凑成sql。

alter table XX add partition (dt=20240101);

2、然后打开notepad++，用ctrl + f 正则处理一下

大概就处理成这样

测试：

在目标端，因为我们没有修复分区，所以这里迁移完数据和元数据后，他们是查不出来数据的。
beeline -u 'xxx'

select * from xxx limit 1;

没有数据

3、接下来我们将500多条语句丢进Hive执行一下（手动分区修复）。

然后我们在执行一下查询

select * from xxx limit 1;

有数据了，手动修复成功，比hive MSCK REPAIR TABLE table_name分区命令快n倍。

原文地址：https://blog.csdn.net/qq_38403590/article/details/145027678

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：晨辉面试抽签和评分管理系统之六：面试答题倒计时
下一篇：Flask-SQLAlchemy 基于一个base表 - 动态创建使用相同字段的以他业务表

【MySQL】SQL菜鸟教程（一）
1.从 “Websites” 表中删除网站名为 “Facebook” 且国家为 USA 的网站。1.把 “菜鸟教程” 的 alexa 排名更新为 5000，country 改为 USA。在表中，一个列
阅读更多2025-01-13
el-table 合并单元格
【代码】el-table 合并单元格。
阅读更多2025-01-13
【25考研】西南交通大学计算机复试重点及经验分享！
如果想要一应俱全的全部准备是不可能也不现实的,因此需要针对特定的题库进行专门的训练，尽可能把比较重要的问题重点准备，例如计网中的三次握手四次挥手，操作系统里的进程调度等，这一部分就需要自己去搜集资料，
阅读更多2025-01-13
基于SDN的ddos攻击检测与防御
留空，然后点击右面的 Submit (√)提交-------，之后，将自动转到图形化流量监控页面。我们需要在虚拟交换机配置sFlow Agent，这样sFlow Collector 才能收集到流量信
阅读更多2025-01-13
Effective Objective-C 第一章阅读笔记
如果这里面调用的函数时多态的，那么对于函数型语言则是通过一个虚方法表来查出应该执行哪一个函数，至于采用消息结构的语言，无论是否多态，总是在运行时才会去查找所要执行的一个方法。上面代码中的someStr
阅读更多2025-01-13
el-table单独某列自适应文字换行
el-table表格文字超出换行处理
阅读更多2025-01-13
vue3+ts+element-plus 输入框el-input设置背景颜色
效果：输入框前后部分均没有背景颜色。特殊情况：输入框设置禁用状态。
阅读更多2025-01-13
Vue 中，使用 v-for 和 v-if 在同一个元素上时，出现报错，怎么解决
在 Vue 中，当使用 v-for 和 v-if 在同一个元素上时，可能会导致性能问题或错误
阅读更多2025-01-13
Flutter Xcode 16+ iOS 18.1 使用image_pickers无法弹出选择图片的视图问题
在开发 Flutter 应用时，图片选择功能是常见的需求之一。库因其便捷性和功能丰富性，成为了许多开发者的选择。然而，随着 Xcode 版本的不断更新，一些兼容性问题也逐渐浮现。本文将详细探讨在使用
阅读更多2025-01-13
图像处理中实现 C++ 和 Python 的高效通信——Boost.Interprocess & mmap
使用Boost.Interprocess和mmap实现图像处理中 C++ 和 Python 的高效通信
阅读更多2025-01-13

hive迁移后修复分区慢，怎么办？

实战测试

1、先查询指定库的分区有几个（源端查）

2、然后打开notepad++，用ctrl + f 正则处理一下

3、接下来我们将500多条语句丢进Hive执行一下（手动分区修复）。

相关文章