Flink如何基于数据版本使用最新离线数据

🕗 发布于 2024-12-08 18:36 flink hbase

业务场景

假设批量有一张商户表，表字段中有商户名称和商户分类两个字段。

批量需要将最新的商户名称和分类的映射关系推到hbase供实时使用。

原实现方案

a.原方案内容

为解决批量晚批问题，批量推送hbase表时一份数据产生两类rowkey：T-1和T日两类。

即使批量晚批，也能用前一日推送的数据。

原文链接：实时离线融合计算的数据同步实践

b.原方案缺陷

如果2号的分区中有客户A，但是3号的分区中没有客户A。

但是原有方案会造一条客户号_3号的数据在hbase中，这种"假"数据不符合数据规范。

优化方案

准备两张hbase表，一张存放业务数据（数据表），一张存放数据版本日期（配置表）。

每次批量推送最新分区的业务数据到数据表后，向配置表插入一条此份数据的业务日期。

比如前一天向数据表中推送了主键rowkey为客户号_2号的业务数据后，将配置表的数据日期字段更新为2号。

同样今天向数据表推送完rowkey客户号_3号的业务数据后，将配置表的数据日期字段更新为3号。

实时使用数据表的时候，会取出配置表中的数据日期字段，再和客户号进行拼接作为查询数据表的字段即客户号_日期。

如果批量今日晚批没有将客户号_3号的业务数据送过来后，从在配置表中取出的数据日期为2号，再用客户号_2号作为主键查询数据表。

这样即使批量晚批，优化后的新方案中实时一直能使用数据表最新分区的数据，而且也没有原方案的"假"数据问题。

原文地址：https://blog.csdn.net/HuailiShang/article/details/144312958

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：Vulhub：Shiro[漏洞复现]
下一篇：Linux-ADC驱动实验

HarmonyOS NEXT 实战之元服务：静态案例效果---电台推荐
HarmonyOS NEXT 实战之元服务：静态案例效果---电台推荐
阅读更多2024-12-26
Python PyMupdf 去除PDF文档中Watermark标识水印
使用PyMuPdf去除watermark型PDF水印。
阅读更多2024-12-26
前端如何将pdf等文件传入后端
来输入文件。其中type指后端url，accept来限制传入类型。
阅读更多2024-12-26
HarmonyOS NEXT 实战之元服务：静态案例效果---最近播放音乐
HarmonyOS NEXT 实战之元服务：静态案例效果---最近播放音乐
阅读更多2024-12-26
JVM简介—1.Java内存区域
如果Java堆中的内存并不是规整的，已使用的内存和空闲的内存相互交错，那就没有办法进行指针碰撞了，此时虚拟机就必须要维护一个列表，记录上哪些内存块是可用的，在分配的时候从列表中找到一块足够大的空间划分
阅读更多2024-12-26
左神算法基础巩固--1
时间复杂度为一个算法流程中，常数操作数量的一个指标。常用O(读作big O)来表示。具体来说，先要对一个算法流程非常熟悉，然后去写出这个算法流程中，发生了多少常数操作，进而总结出常数操作数量的表达式。
阅读更多2024-12-26
2025考研加油！Jing也加油哦！
幸运儿们，上岸！！！加油！！！Jing也是！！！
阅读更多2024-12-26
HDFS与HBase有什么关系？
甚至如果不考虑文件系统的分布式或稳定性等特性的话，完全可以用简单的本地文件系统，甚至内存文件系统来代替。可以很好地解决大规模数据的离线批量处理问题，但是，受限于Hadoop MapReduce。传统的
阅读更多2024-12-26
shell 编程(五)
df 命令时unix 和类unix系统中用于显示文件系统磁盘空间使用情况的命令，df 是disk free的缩写，它可以显示磁盘上每个挂载点的使用情况，包括总容量，已用空间，可用空间以及挂载点信息。
阅读更多2024-12-26
RHCE-第六章：DNS域名解析服务器
DNS（Domain Name System）是互联网上的一项服务，它作为将域名和IP地址相互映射的一个分布式数据库，能够使人更方便的访问互联网。DNS系统使用的是网络的查询，那么自然需要有监听的po
阅读更多2024-12-26

Flink如何基于数据版本使用最新离线数据

相关文章