细说Flink状态管理

🕗 发布于 2024-09-20 06:37 flink 大数据

一：“背景”
Flink 的状态管理是啥，要讲明白这个事情，我们就要知道为什么有Flink的状态管理呢？兄弟们想想，如果Flink的流式任务中要计算某个特定时间范围内的统计数据，就比如5min内的某类商品的订单量，我们是不是要把5min内的所有的数据拿到，然后做一个总和统计。
那么问题来了，Flink 的流式任务中，第1s中进入Flink的数据如果没有其他特殊情况下，是会把这个数据继续输出给下游的，如果我们要留住，那必然是需要用个缓存池缓存起来嘛，这些缓存起来的数据一般会进入到我们的所谓的状态里面，就是我们所说的State。

那么兄弟们可能会问到，对于这种不关心前面的数据的情况下，是不是需要缓存啊，你是不是傻，当然不需要啊，关心干嘛，不是给自己增加负担吗？比如我们常用的map，filter, flatMap 不就是这种情况嘛，这个是无状态管理。

二：分类
其实Flink 的状态分为两大类，分别是KeyedState 和 OperatorState；根据大致的意思我们就明白，KeyedState就是我们FLink 中用到的KeyBy 算子会触发这个状态大类，而OperatorState 就是我们常见的算子状态大类(包括诸如ReducingState, AggragatingState 等)。但是兄弟们，状态这个东西最本质的还是某些需要缓存记录的数据，我之前还一直以为这个状态是像我们现实世界中所理解的一样是某个数据是否可用等的情况，不是，就是比如订单前一分钟的订单金额这种的。

2.1：KeyedState

KeyedState 顾名思义就是某个key对应的某些状态的值，因为我们在进行keyBy的时候，我们是需要知道这个对应的key的value值有哪些，也需要知道这个value值有多少等，所以这个KeyedState 一般分为ValueState，ListState, MapState等，分别存储这些key对应的不同的状态类型，也就是不同的数据情况。假如我们按照订单id去进行分组的话，某个valueState 就是这个订单id所对应的金额存储，而这个ListState 就是对应的这个订单id的子订单的id的存储；MapState 或许就是这个订单Id 和子订单的一一对应关系的存储。大家只要理解成数据存储就可以了。

2.2：OperatorState

大家想象下这个场景，我们在进行相应的流计算的时候，假设没有进行对应的KeyBy这样的算子，只有一些简单的过滤逻辑，就会对应到一些map或者filter这样的算子，那么算子过滤之后的数据存储在哪里呢？这个时候这些算子就是放在对应的OperatorState，它一般分为ListState，valueState等，顾名思义就是存储对应的列表和值的。

三：状态存储

上述的状态很重要，所以Flink 肯定就要把相应的状态给保存下来，那么保存在哪里呢？FLink 提供了三个存储的介质，分别是MemoryStateBackend, RocksDBStateBackend 和 FilesystemStateBackend

状态的数据和checkpoint 的数据都存储在哪里呢？

3.1: 如果是memoryStateBackend, 状态的数据是存储在tm的内存中，checkpoint 的数据是存储在jm 的内存中

3.2: 如果是RocksDBStateBackend，状态的数据是存储在RockDB(内存和磁盘)；对应的checkpoint 的数据是一般存储在hdfs 上的

3.3: 如果是FilesystemStateBackend, 那么状态的数据是存储在tm的内存中；那么对应的checkpoint 的数据是一般存储在hdfs 上的

兄弟们可能会想，checkpoint 到底是个什么样的东西？我就简单地说下，checkpoint 的中文意思是检查点，其实也就是一个数据备份的机制，把所有的状态数据做一个备份，以便后期任务出现异常的时候可以把这些对应的状态恢复过来。

那么这就涉及到一个问题，在开发环境和生产环境的时候我们对应的状态应该存储在哪里呢？对于开发和测试环境来说，因为我们一般都是用自己的一个测试数据，所以状态数据不是很大，所以我们可以选择第一个方式，直接设置SET ‘state.backend’ = ‘memory’; – 设置状态后端为内存（MemoryStateBackend），默认不设置checkpoint，这样checkpoint 对应的数据就会存储在jm的内存中；

如果是生产环境，理论上来说状态后端的存储可以设置为RocksDB 和FileSystem, 但是如果数据量相对来说比较大的情况下，还是建议设置成RocksDB, 因为RockDB 支持增量的状态存储，相对来说存储的状态可以更多，Flink sql 设置案例如下：

state.backend RocksDB
execution.checkpointing.externalized-checkpoint-retention RETAIN_ON_CANCELLATION
execution.checkpointing.interval 30s
execution.checkpointing.mode EXACTLY_ONCE
state.checkpoints.dir hdfs://user/kafka/kafka-hive/checkpoints

原文地址：https://blog.csdn.net/weixin_41188932/article/details/141310046

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：Gitlab runner的简单使用（一）
下一篇：表格HTML

JS | 详解浏览器存储机制cookies、sessionStorage和localStorage的区别
使用HTML5可以在本地存储用户的浏览数据。使用的主要目的是为了克服Cookie带来的一些限制，当数据需要被严格控制在客户端上时，无需持续的将数据发回服务器。主要目标：1.提供一种在Cookie之外存
阅读更多2024-09-22
Linux 使用 tar 命令
Linux 使用 tar 命令
阅读更多2024-09-22
GDPU Andriod移动应用 Activity
移动应用开发入门级必看，用活动打造属于你的页面。
阅读更多2024-09-22
前端性能优化
前端性能优化是一个系统性工作，它涉及代码开发、打包、上线部署等多个阶段。下面从这三个阶段分别进行详细讲解及示例说明。
阅读更多2024-09-22
达梦disql支持上翻历史命令-安装rlwrap
DM安装完成后使用disql命令行，无法使用上下键引用历史命令，会出现“[[A[[A”的现象。这样的操作包括使用退格Backspace键，上下键，左右键等。解决这个问题，可以使用rlwrap工具。长期
阅读更多2024-09-22
PHP在将数据存储到数据库之前如何转义数据
在PHP中，保护数据库免受SQL注入攻击的最佳做法是使用PDO或MySQLi扩展，并利用它们的预处理语句和参数化查询功能。这些方法不仅提高了代码的安全性，还使代码更加清晰和易于维护。尽管手动转义在某些
阅读更多2024-09-22
抖音如何改ip地址到另外城市
在数字化时代，抖音作为广受欢迎的社交媒体平台，不仅连接了亿万用户，也成为了展示个人生活、分享创意内容的重要舞台。然而，有时候出于隐私保护等需求，用户可能希望更改抖音账号显示的IP地址，使其看起来像是来
阅读更多2024-09-22
数模方法论-整数规划
非线性规划的应用包括工程设计、资源分配、经济模型等。在求解过程中，由于非线性特性，常用的方法有梯度法、牛顿法、启发式算法等。求解非线性规划问题时，解的存在性和唯一性通常较难保证，且可能存在多个局部最优
阅读更多2024-09-22
智能工厂的软件设计 “程序program”表达式，即接口模型的代理模式表达式
“智能工厂的软件设计”“程序program”表达式即接口模型的代理模式表达式--相同格式的的一个高阶逻辑代理proxy服务器的SPI模型和三个一阶逻辑（线性的、有序的和既线性也有序的简单链）的不
阅读更多2024-09-22
Oracle 单机和集群环境部署教程
通过以上步骤，我们完成了 Oracle 单机和集群环境的部署，并实现了 Java 和 Python 的简单连接示例。Oracle 数据库作为企业级数据库管理系统，适用于各种高可用性和高性能需求的场景。
阅读更多2024-09-22

细说Flink状态管理

相关文章