20250120 深入了解 Apache Flink 的 Checkpointing

🕗 发布于 2025-01-21 07:54 apache flink 大数据

Apache Flink 是一种用于实时流处理和批处理的分布式计算框架。在实时流处理任务中，保证数据的一致性和任务的容错性是至关重要的，而 Flink 的 Checkpointing 机制正是实现这一目标的核心技术。

本文将详细介绍 Flink 的 Checkpointing，包括其概念、原理、配置和实际应用。

什么是 Checkpointing？

Checkpointing 是 Flink 提供的一种用于容错的机制。它会在流处理任务运行过程中，定期将作业的状态和流的处理进度保存到外部持久化存储（例如 HDFS 或 S3）中。当任务因故障而中断时，Flink 可以从最近一次成功的 Checkpoint 恢复，继续任务执行，而无需重新处理已经完成的数据。

Checkpointing 的核心功能

状态保存：
- 保存任务中所有算子的状态，例如窗口聚合、累加器或其他操作的中间结果。
进度保存：
- 保存流处理中数据源的消费位置（如 Kafka 的偏移量）。
故障恢复：
- 任务失败时，从最近的 Checkpoint 恢复状态和进度，保证作业的一致性。

Checkpointing 的原理

Flink 的 Checkpointing 采用 两阶段提交协议（Two-Phase Commit Protocol） 来确保状态的一致性。这一过程分为以下几个阶段：

1. 触发 Checkpoint

JobManager 定期触发 Checkpoint（由 enableCheckpointing 配置间隔时间），向所有并行任务发送 Checkpoint 触发信号。

2. 保存状态

每个算子将其当前状态保存到本地或远程存储（如 HDFS、S3）。
数据源（如 Kafka）会记录当前消费的偏移量。

3. 提交 Checkpoint

当所有算子成功完成状态保存后，JobManager 将 Checkpoint 标记为成功。
任务的恢复点会更新为该 Checkpoint。

4. 故障恢复

如果任务失败，Flink 会从最近一次成功的 Checkpoint 恢复作业状态和数据流进度，确保任务继续执行。

如何启用 Checkpointing

在 Flink 程序中，启用 Checkpoint 非常简单，只需在执行环境中调用 enableCheckpointing 方法：

import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;

public class CheckpointExample {
    public static void main(String[] args) throws Exception {
        // 创建执行环境
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

        // 开启 Checkpoint，每隔 5000 毫秒触发一次
        env.enableCheckpointing(5000);

        // 配置 Checkpoint 的额外参数
        env.getCheckpointConfig().setCheckpointTimeout(60000); // 设置超时时间
        env.getCheckpointConfig().setMaxConcurrentCheckpoints(1); // 同时只允许一个 Checkpoint
        env.getCheckpointConfig().setMinPauseBetweenCheckpoints(2000); // 两次 Checkpoint 之间的最小间隔

        // 添加数据源和作业逻辑
        env.fromElements("hello", "flink", "checkpointing")
            .map(String::toUpperCase)
            .print();

        // 执行作业
        env.execute("Flink Checkpoint Example");
    }
}

import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment; public class CheckpointExample { public static void main(String[] args) throws Exception { // 创建执行环境 StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(); // 开启 Checkpoint，每隔 5000 毫秒触发一次 env.enableCheckpointing(5000); // 配置 Checkpoint 的额外参数 env.getCheckpointConfig().setCheckpointTimeout(60000); // 设置超时时间 env.getCheckpointConfig().setMaxConcurrentCheckpoints(1); // 同时只允许一个 Checkpoint env.getCheckpointConfig().setMinPauseBetweenCheckpoints(2000); // 两次 Checkpoint 之间的最小间隔 // 添加数据源和作业逻辑 env.fromElements("hello", "flink", "checkpointing") .map(String::toUpperCase) .print(); // 执行作业 env.execute("Flink Checkpoint Example"); } }

重要配置

enableCheckpointing(interval)：设置 Checkpoint 的触发间隔，单位为毫秒。
setCheckpointTimeout(timeout)：设置单个 Checkpoint 的最大超时时间。
setMaxConcurrentCheckpoints(n)：设置同时允许进行的最大 Checkpoint 数量。
setMinPauseBetweenCheckpoints(milliseconds)：两次 Checkpoint 之间的最小间隔时间。

Checkpointing 的应用场景

1. Kafka 数据消费

在使用 Kafka 作为数据源时，Checkpoint 会保存 Kafka 的偏移量。当任务重启时，Flink 会从最近的偏移量开始重新消费数据，确保数据不会丢失或重复处理。

2. 窗口操作

对于基于窗口的聚合操作（如实时统计点击量），Checkpoint 保存中间结果。当任务失败后，中间结果可以恢复，不需要重新计算。

3. 用户状态管理

用户自定义的状态（例如计数器、缓存）也可以通过 Checkpoint 保存。通过恢复这些状态，确保任务逻辑的一致性。

Checkpointing 与 Savepoint 的区别

特性	Checkpoint	Savepoint
触发方式	自动触发（定期执行）	手动触发
用途	故障恢复	程序升级、迁移、测试
存储生命周期	短期（任务失败后自动清理）	长期（由用户管理，手动删除）
操作复杂度	无需手动操作	需要用户显式触发

Checkpointing 的注意事项

1. 存储路径

Checkpoint 的数据通常会存储在外部持久化存储中，如 HDFS、S3 或本地文件系统。

配置存储路径：

env.getCheckpointConfig()
    .setCheckpointStorage("hdfs://namenode:port/flink/checkpoints");

2. 性能影响

Checkpoint 是一个重量级操作，频率过高可能会影响任务性能。
通常设置为每 5-10 秒触发一次，根据任务需求进行调整。

3. 容错机制

Checkpoint 默认提供 精确一次（Exactly Once） 的语义。如果对性能要求较高，可以选择 至少一次（At Least Once）。

总结

Flink 的 Checkpointing 是流处理容错的核心技术，具备以下特点：

定期保存任务的状态和进度，确保数据一致性。
支持任务的快速恢复，避免重新处理已完成的数据。
与外部存储（如 HDFS、S3）的集成，为分布式任务提供强大的容错能力。

在实际使用中，Checkpointing 是实现 高可用性 和 数据一致性 的基础。通过合理配置 Checkpoint，可以确保 Flink 作业在高负载和分布式环境下的可靠运行。

如果你正在使用 Flink 进行实时流处理任务，Checkpoint 是你必须深入了解和掌握的关键机制！ 😊

原文地址：https://blog.csdn.net/2301_79992621/article/details/145260423

免责声明：本站文章内容转载自网络资源，如侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：Java设计模式—观察者模式
下一篇：AUTOSAR从入门到精通-自动驾驶测试技术（二）

2024年度数据科学与机器学习技术总结
✅作者简介：2022年博客新星。热爱国学的Java后端开发者，修心和技术同步精进。🍊个人信条：不迁怒，不贰过。小知识，大智慧。🥭本文内容：2024年度数据科学与机器学习技术总结。
阅读更多2025-01-21
鸿蒙Harmony json转对象（1）
HarmonyOS鸿蒙Next开发：按照key获取json的value网络请求的json获取value。下图为测试样例中服务器返回的Json数据。
阅读更多2025-01-21
探索可解释机器学习的奥秘：从定义到挑战的全景视角
近年来，随着机器学习技术的迅猛发展，人工智能模型被广泛应用于科学、技术和社会领域。然而，复杂的模型往往成为“黑盒”，使其决策逻辑难以理解。如何在保证模型性能的同时，让其变得更透明、更可信？**可解释机
阅读更多2025-01-21
打印输入单词字符数量统计直方图-Python版
打印输入单词字符数量统计直方图-Python版
阅读更多2025-01-21
【算法】算法基础课模板大全——第二篇
此笔记适用于AcWing网站的算法基础课，所有的资源链接、代码模板全部来源于网络，这个文档只是做了一些收集和整理，感谢文档中的所有资源原作者们！笔记作者QQ：`2468197060`笔记QQ群聊：`1
阅读更多2025-01-21
如何在Nginx服务器上配置访问静态文件目录并提供文件下载功能
通过以上步骤，您已成功在Nginx服务器上配置了一个静态文件目录，使得用户可以通过Web界面方便地访问和下载所需的文档资料。
阅读更多2025-01-21
c++优先队列
优先队列 priority_queue。2.定义元素为结构体类型的优先队列。1.定义元素为基本类型的优先队列。
阅读更多2025-01-21
睡眠时间影响因素K-Means可视化分析+XGBoost预测
睡眠时间影响因素K-Means可视化分析+XGBoost预测
阅读更多2025-01-21
c++常见设计模式之适配器模式
适配器模式作为c++中常见的设计模式模式之一，是一种结构型设计模式。那适配器模式用于解决什么问题呢？答案是将一个类的接口转换成客户期待的另一个接口。适配器让原本不兼容不能一起工作的类可以协同工作。
阅读更多2025-01-21
kafka 学习笔记3-传统部署Kraft模式集群——筑梦之路
一般模式下，元数据在zookeeper中，运行时动态选举controller，由controller进行Kafka集群管理。kraft模式架构下，不再依赖zookeeper集群，而是用三台contro
阅读更多2025-01-21