Flink的Watermark水位线详解

🕗 发布于 2024-12-27 10:48 flink 大数据

一、Flink的时间语义

Flink有如下三种时间语义： Flink的三种时间语义-CSDN博客

在实际应用中，一般会采用事件时间语义。而正如前面所说的，事件时间语义需要等窗口的数据全部到齐了，才能进行窗口计算。那么，什么时候数据就都到齐了呢？这里我们引入水位线的概念。

二、为什么要引入水位线？不能用数据本身带有的时间戳来驱动吗？

如果用数据本身所带有的时间戳来进行驱动，将会面临如下问题：

（1）如果面临聚合计算，数据本身所带有时间戳也会参与聚合，则聚合之后一批数据只会输出一个结果，那么下游的数据量就会变少，进而影响时间进度控制的精细程度。

（2）数据由上游节点发往下游节点时，往往一个数据只会发往下游的一个节点（除广播外），那么不同并行子任务之间的时钟推进程度就会产生差别，从而影响计算结果。

综上所述，我们需要将将单独的时间信息以数据的形式广播到下游的每一个并行子任务上，并且这个时钟的传递不会因为窗口的聚合计算而受到影响。解决方法就是在数据流中加入一个时钟标记：水位线。

三、水位线概念

水位线可以看作一条特殊的数据记录，它是插入到数据流中的一个数据标识，主要内容就是一个时间戳，用来指示当前流的事件时间。它插入流中的位置，应当是某个数据到来之后，这样就可以从这个数据中提取时间戳，作为当前水位线的时间戳了。如果下游出现了多个并行子任务，应当将水位线广播出去。

四、有序流中的水位线

在理想情况下，数据按照生成的先后顺序依次进入数据流，在处理过程中也会保持原顺序不变。在这种情况下，从每个数据中提取的时间戳一定是单调不减的，在海量数据的情况下，可能有很多数据具有相同的时间戳，那么每个数据的到来都提取时间戳、生成水位线就做了大量的无用功，即使时间戳不同，连续数据的时间戳相隔也会非常之细微，往往对计算结果没什么影响。所以为了提高效率，一般会周期性（如每隔100ms,这里的间隔时间是系统时间）生成水位线。

五、乱序流中的水位线

在分布式系统中，数据往往是乱序的，这种情况下由于存在迟到数据，可能出现水位线回退，因此在插入新的水位线时，要先判断一下时间戳是否比之前的大，否则不再生成新的水位线。此外，考虑到大量数据同时到来时的处理效率，也可以周期性生成水位线，只需要保存之前所有数据中最大的时间戳即可，在需要生成水位线时直接以最大时间戳作为新的水位线。最后，为了等待当前窗口的迟到数据，我们应该为水位线设置一个延迟时间，即把（最大时间戳-延迟时间）作为当前水位线。

六、水位线的特性总结

（1）水位线是插入到数据流中的一个标记，可以认为是一个特殊的数据

（2）水位线的主要内容是一个时间戳，用来表示当前事件时间的进展

（3）水位线是基于数据的时间戳生成的

（4）水位线的时间戳是单调递增的，以确保任务的事件时间时钟一直向前推进

（5）水位线可以通过设置延迟，来确保正确处理乱序数据

（6）一个水位线WaterMark(t)，代表在当前流中事件时间已经来到了t，这表示t之前的数据都已经到齐了。

七、水位线的传递

在重分区的传递模式下，下游子任务会收到多个上游子任务广播来的水位线，那么应该以哪个为准呢？回忆水位线的本质：当前时间之前的所有数据都已到齐！那么应当选取最小的水位线作为当前子任务的水位线。

八、水位线总结

(1) 水位线默认默认计算公式：水位线 = 观察到的最大时间戳-延迟时间-1ms

(2) 在数据流开始之前会插入一个负无穷大的水位线，在数据流结束时会插入一个正无穷大的水位线，保证所有的窗口闭合及所有的额定时器被触发。对于离线数据集，只需这两个水位线即可。

原文地址：https://blog.csdn.net/lx104921/article/details/144702314

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：leetcode 218. 天际线问题
下一篇：使用 Python 操作 Excel 表格

uni-app开发收货地址管理
收货地址在个人中心的我的地址里面，点击我的地址可以查看我的收货地址列表，可以新增收货地址，点击特定收货地址可以编辑和删除该地址信息。// 加载loding。
阅读更多2024-12-27
hive的存储格式
hive5种存储格式的区别
阅读更多2024-12-27
基于 MATLAB 的图像增强技术分享
MATLAB 的图像处理工具箱提供了大量用于图像增强和处理的函数，如imread用于读取图像，imwrite用于保存图像，rgb2gray用于将彩色图像转换为灰度图像，imhist用于计算图像的直方图
阅读更多2024-12-27
taiwindcss
注意：一定通过px tailwindcss init方式创建。6.问题，如果这几个步骤发现没有实现，删除包以后重新试一下。5.因为tailwindcss是依赖于postcss。创建postcss.co
阅读更多2024-12-27
“Gold-YOLO：基于聚合与分发机制的高效目标检测新范式”
Gold-YOLO是一种新型高效的目标检测模型，它通过引入聚合和分发机制显著提升了多尺度特征融合的能力。Gold-YOLO通过其创新的GD机制，在目标检测领域实现了最佳性能，尤其是在处理多尺度物体时。
阅读更多2024-12-27
典型常见的基于知识蒸馏的目标检测方法总结一
使用feature propagation layer [29]将voxel特征转换为point feature。
阅读更多2024-12-27
CSS系列（37）-- Overscroll Behavior详解
CSS之旅第三十七站
阅读更多2024-12-27
最短路径C++，Dijkstra
第一行为有向图中点的数量n（各点从0到n-1编号）第二行为边的数量m第三行为要求其间最短路径的两个点第四行起为m条边的信息，包括起点、终点和路径长度（保证长度是整数，且绝对值不大于100），以空格隔开
阅读更多2024-12-27
题海拾贝：蓝桥杯 2020 省AB 乘法表
输出P进制下的乘法表。P 进制中大于等于 10 的数字用大写字母 A、8、C、.·表示。九九乘法表是学习乘法时必须要掌握的。在不同进制数下，需要不同的乘法表。给定 P，请输出P 进制下的乘法表。
阅读更多2024-12-27
力扣-数据结构-3【算法学习day.74】
##我做这类文章一个重要的目的还是给正在学习的大家提供方向（例如想要掌握基础用法，该刷哪些题？建议灵神的题单和代码随想录）和记录自己的学习过程，我的解析也不会做的非常详细，只会提供思路和一些关键点，力
阅读更多2024-12-27