Spark RDD Checkpoint 数据的保存机制

🕗 发布于 2024-11-23 17:08 spark checkpoint RDD

在 Spark 中，RDD 的 checkpoint 是一种容错机制，用于将 RDD 的数据保存到可靠的存储系统（如 HDFS）中，以便在节点故障时可以从存储中重新加载数据，而不是重新计算依赖链。

RDD Checkpoint 数据的保存格式

数据保存格式
- 默认格式：序列化文件（Sequence File 格式）
  - Checkpoint 数据以 Spark 的序列化形式存储在存储系统中。
  - 底层实现采用 Hadoop 的 Sequence File，这是一种键值对存储格式。
    - Key：表示 RDD 的分区索引。
    - Value：表示该分区中存储的数据。
序列化方式
- 数据会按照 Spark 的 序列化机制保存（如 Kryo 或 Java 序列化）。
- 具体使用哪种序列化方式，取决于 Spark 配置中的 spark.serializer 参数：
  - Java 序列化：默认的序列化方式。
  - Kryo 序列化：推荐的高效序列化方式，需要用户在配置中显式启用。
存储位置
- 数据会被存储到配置的 checkpoint 目录中。
- 默认使用的存储系统通常是 HDFS 或其他可靠的分布式文件系统（如 S3）。

Checkpoint 数据保存的机制

触发保存
- 当对 RDD 调用 RDD.checkpoint() 方法时，Spark 会在行动操作（如 count() 或 collect()）触发计算时将 RDD 的数据写入 checkpoint 目录。
存储过程
- Spark 在对每个分区数据完成计算后，将该分区的数据序列化并保存到 checkpoint 目录下的文件中。
- 每个 RDD 分区对应一个单独的文件，文件名中包含分区 ID。
文件命名
- Checkpoint 数据的文件名通常遵循以下模式：
```
<checkpointDir>/<RDD_ID>/part-<partition_ID>
```
  - ：用户配置的 checkpoint 目录。
  - <RDD_ID>：该 RDD 的唯一标识。
  - <partition_ID>：RDD 的分区 ID。
持久化标记
- Checkpoint 完成后，RDD 的依赖关系会被丢弃，RDD 的父依赖链被替换为存储在 checkpoint 目录中的数据文件路径。

示例

以下是一个简单的示例，展示 RDD checkpoint 的工作过程：

代码

import org.apache.spark.{SparkConf, SparkContext}

// 配置 Spark 和 checkpoint 目录
val conf = new SparkConf().setAppName("RDD Checkpoint Example").setMaster("local")
val sc = new SparkContext(conf)

// 设置 checkpoint 目录
sc.setCheckpointDir("hdfs://localhost:9000/checkpoints")

// 创建 RDD 并执行 checkpoint
val rdd = sc.parallelize(1 to 10).map(x => x * x)
rdd.checkpoint()

// 执行动作操作，触发 checkpoint
println(rdd.collect().mkString(","))

生成的 checkpoint 文件

假设 checkpoint 目录为 hdfs://localhost:9000/checkpoints，可能的文件结构如下：

hdfs://localhost:9000/checkpoints/
  |- RDD_ID_1/
      |- part-00000
      |- part-00001

RDD_ID_1 是 Spark 自动分配的 RDD 唯一标识。
每个 part-XXXXX 文件存储一个分区的数据，使用序列化格式。

与 Persist 的区别

特性	Checkpoint	Persist
存储位置	持久化到可靠存储系统（如 HDFS）。	存储在内存或磁盘中（节点本地）。
序列化方式	默认采用 Sequence File 格式。	可以基于存储级别选择是否序列化。
依赖链	Checkpoint 后会丢弃 RDD 的依赖链。	Persist 保留 RDD 的依赖链。
容错能力	支持重新加载（从 checkpoint 目录恢复）。	如果节点失败，可能需要重新计算依赖链。

优化与注意事项

选择合适的存储系统
- 推荐使用 HDFS 或其他可靠的分布式文件系统作为 checkpoint 目录。
- 本地文件系统可以用于测试，但不建议用于生产环境。
与 Persist 配合使用
- RDD 在 checkpoint 之前需要被计算，使用 persist()（如 MEMORY_AND_DISK）可以避免重复计算开销。
序列化优化
- 配置高效序列化机制（如 Kryo），提升序列化与存储的性能：
```
spark.serializer=org.apache.spark.serializer.KryoSerializer
```
性能权衡
- Checkpoint 会引入 I/O 开销，仅在需要容错能力时使用。
- 对于容错需求不高的场景，可以仅使用 persist 或 cache。

总结：RDD checkpoint 的数据以 Sequence File 格式存储，序列化后的数据会保存在可靠的分布式存储系统中。它适用于需要高容错性的场景，同时对计算成本较高的 RDD 提供了中间结果保存的能力。

原文地址：https://blog.csdn.net/z1941563559/article/details/143896808

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：“iOS profile文件与私钥证书文件不匹配”总结打ipa包出现的问题
下一篇：Oracle - 多区间按权重取值逻辑，分时区-多层级-取配置方案（三）

Windows电脑本地部署llamafile并接入Qwen大语言模型远程AI对话实战
Windows电脑本地部署llamafile并接入Qwen大语言模型远程AI对话实战
阅读更多2024-11-23
解决vm虚拟机中ctrl键粘滞问题（一直处于按下状态）
虚拟机中点击鼠标左键没有问题，单独按下键盘也没有问题，但是如果按下键盘的同时在按下鼠标左键就会卡住。而且100%稳定复现。发现问题原因：vm版本的问题，我的版本是17.5.0，升级成17.5.2 bu
阅读更多2024-11-23
第十章 JavaScript的应用
10.1.1 JavaScript简介1 简单性JavaScript 设计之初就考虑到了非专业程序员的使用，因此它的语法相对简单，容易上手。2 动态性JavaScript 是一种解释型语言，代码可以在
阅读更多2024-11-23
非root用户安装CUDA
4.下载完成后执行.run文件，需要添加两个参数，一个是--override，用于跳过某些检查或限制；另一个是--toolkitpath，它表示安装路径，必须是自己目录下面的路径，如果是根目录就会安装
阅读更多2024-11-23
Python操作neo4j库py2neo使用之py2neo 删除及事务相关操作（三）
【代码】## Python操作neo4j库py2neo使用之py2neo 删除及事务相关操作（三）
阅读更多2024-11-23
【通俗理解】Jensen不等式与变分分布q(z)在积分计算中的应用
Jensen不等式 #变分分布 #积分计算 #期望 #凸函数 #优化问题 #下界估计 #机器学习。
阅读更多2024-11-23
「Mac玩转仓颉内测版27」基础篇7 - 字符串类型详解
本篇将介绍 Cangjie 中的字符串类型，包括字符串的定义、字面量形式、插值表达、常用操作及应用场景，帮助开发者熟练掌握字符串的使用。
阅读更多2024-11-23
数据科学与SQL：组距分组分析 | 区间分布问题
绝对值分布分析也可以理解为组距分组分析。对于某个指标而言，一个记录对应的指标值的绝对值，肯定落在所有指标值的绝对值的最小值和最大值构成的区间内，根据一定的算法，在把这个区间划分为等距离的几个小区间，，
阅读更多2024-11-23
c++编译报C1004错误的原因及解决办法
可能是你的代码文件最后没有正确的结束符，或者是缺少了一些必要的头文件或语句。默认磁盘驱动器没有足够的空间用于临时文件，需要大约两倍于源文件的空间。编译器到达了源文件尾但未解析构造。计算结果为假的 #i
阅读更多2024-11-23
mysql 去重补全取出重复变量函数和存储过程
mysql 去重补全取出重复变量函数和存储过程
阅读更多2024-11-23