Spark 中 cache、persist 和 checkpoint 优化数据处理的三种重要机制介绍

🕗 发布于 2024-11-20 18:38 spark 大数据 分布式数据处理优化

在 Spark 中，cache、persist 和 checkpoint 是优化数据处理的三种重要机制。它们都旨在减少数据重算和优化性能，但有各自的应用场景和实现原理。下面从源码角度分析其原理、作用和适用场景。

1. 基本概念和作用

机制	作用	存储介质
`cache`	将数据存储在内存中以加快后续计算速度。	默认存储在内存
`persist`	提供多种存储级别（如内存和磁盘），支持灵活选择存储策略。	内存、磁盘、堆外内存等
`checkpoint`	将数据保存到可靠的存储系统（如 HDFS），提供容错能力，打断 DAG 依赖链。	HDFS 或其他持久化存储

2. 核心原理

2.1 Cache

cache 是 persist 的简化版，其底层实现直接调用 persist(StorageLevel.MEMORY_AND_DISK)，默认将数据存储在内存中，如果内存不足，则溢写到磁盘。

源码分析：

在 RDD 中，cache() 的代码：

def cache(): this.type = persist(StorageLevel.MEMORY_AND_DISK)

persist 方法核心逻辑：

def persist(newLevel: StorageLevel): this.type = {
  if (storageLevel != StorageLevel.NONE && storageLevel != newLevel) {
    throw new UnsupportedOperationException("Cannot change storage level...")
  }
  storageLevel = newLevel
  this
}

执行时，RDD 的 computeOrReadCheckpoint 方法判断是否已经缓存：

if (isCached) {
  SparkEnv.get.blockManager.getOrElseUpdate(blockId, ...)
} else {
  compute(split, context)
}

作用：

加速重复计算：避免重复计算 DAG 中的父节点。
默认存储级别为 MEMORY_AND_DISK，当内存不足时，溢写磁盘。

适用场景：

数据需要被多次使用，但不需要跨作业的容错能力。
计算代价大，但内存能够容纳数据。

2.2 Persist

persist 是 cache 的增强版，允许用户选择存储级别（StorageLevel），如：

MEMORY_ONLY
MEMORY_AND_DISK
DISK_ONLY
堆外内存、序列化存储等。

源码分析：

StorageLevel 是一个枚举类，定义了各种存储级别：

case class StorageLevel(
  useDisk: Boolean,
  useMemory: Boolean,
  useOffHeap: Boolean,
  deserialized: Boolean,
  replication: Int
)

persist 方法直接调用 BlockManager 存储数据，核心逻辑：

blockManager.putIterator(
  blockId,
  values,
  level,
  tellMaster = true
)

作用：

提供更灵活的存储策略，适应内存、磁盘等不同环境。

适用场景：

数据较大，内存无法完全容纳，需要存储到磁盘或其他媒介。
数据跨作业使用时（需确保存储级别满足作业要求）。

2.3 Checkpoint

checkpoint 会将 RDD 的数据保存到可靠存储（如 HDFS），并将 RDD 的依赖链打断，从而减少 DAG 深度，增强容错能力。

源码分析：

RDD 的 checkpoint 方法：

def checkpoint(): Unit = synchronized {
  if (doCheckpoint()) { // 检查是否需要 checkpoint
    val newRDD = new CheckpointRDD(this)
    this.rdd = newRDD // 更新依赖为 CheckpointRDD
  }
}

CheckpointRDD 会从持久化存储中加载数据：

override def compute(split: Partition, context: TaskContext): Iterator[T] = {
  val path = getCheckpointPath(split)
  val data = loadFromHDFS(path)
  data.iterator
}

作用：

容错：数据保存到可靠存储中。
优化 DAG：打断长依赖链，减少重算开销。

适用场景：

作业链较长，DAG 深度过大，容易导致重算开销。
需要跨作业使用 RDD 数据，且要求数据容错性强。

3. 使用对比

特点	Cache	Persist	Checkpoint
存储位置	内存（默认）或磁盘溢写	多种存储级别	可靠存储系统（如 HDFS）
容错性	低，数据丢失需重算	低至中，取决于存储级别	高，数据可靠存储
DAG 优化	无	无	有，打断依赖链
开销	较低	中	高（需要持久化和 I/O 操作）

4. 使用场景总结

Cache

数据需要被频繁多次使用，且内存能够容纳。
例如：在机器学习中对训练数据进行多次迭代。

Persist

数据规模较大，内存无法完全容纳，需结合磁盘。
例如：图计算中存储中间结果，避免重复计算。

Checkpoint

作业链较长，可能因 DAG 深度导致失败或性能下降。
需要跨作业的容错能力。
例如：深度学习中的训练数据预处理、长链条依赖的 ETL 作业。

5. 综合优化建议

优先考虑 cache 或 persist：仅当 DAG 深度问题显著时，使用 checkpoint。
设置合理的存储级别：根据内存和磁盘资源选择最优存储策略。
结合 checkpoint 与 persist：在 Checkpoint 前对数据 Persist，避免重新计算数据。

原文地址：https://blog.csdn.net/z1941563559/article/details/143894377

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：微积分复习笔记 Calculus Volume 1 - 6.2 Determining Volumes by Slicing
下一篇：Zabbix：使用CentOS 9，基于LNMP平台，源码部署Zabbix 7。

深入理解 AWS Route 53 加权路由策略：实现多区域负载均衡
在当今的云计算环境中，有效管理和分配流量对于确保应用程序的高可用性和性能至关重要。AWS Route 53 的加权路由策略提供了一个强大的工具来实现这一目标。在本文中，我们将深入探讨加权路由策略的概念
阅读更多2024-11-21
Elasticsearch：如何部署文本嵌入模型并将其用于语义搜索
如何部署文本嵌入模型并将其用于语义搜索。它使你能够生成文本的向量表示并对生成的向量执行向量相似性搜索。示例中使用的模型在上公开可用。该示例使用来自的公共数据集。它由来自 Microsoft Bing
阅读更多2024-11-21
深入理解CRC：通信可靠性的关键
循环冗余校验（CRC, Cyclic Redundancy Check）是现代数据传输和存储中不可或缺的技术，用于提高系统的可靠性和数据完整性。CRC的强大之处在于其能够高效检测并定位传输错误，确保数
阅读更多2024-11-21
低速接口项目之串口Uart开发(一)——串口UART
在 RS-232 标准中，最常用的配置是八个数据位+无奇偶校验+一个停止位，按照一个完整的字节包括一位起始位、8 位数据位、一位停止位即总共十位数据来算，要想完整的实现这十位数据的发送，就需要 11个
阅读更多2024-11-21
网络安全基础
相对性、时效性、相关性、不确定性、复杂性以及重要性等。指网络系统的硬件、软件及其系统中的数据受到保护，不因偶然的或者恶意的原因而遭受到破坏、更改、泄露，系统连续可靠正常地运行，网络服务不中断。1、机密
阅读更多2024-11-21
Docker1：认识docker、在Linux中安装docker
Docker：快速构建、运行、管理应用的工具。简单来说，帮助我们部署项目、以及项目依赖的各种组件。Docker是一个典型的运维工具。以上就是在Linux中，安装docker的全部详细过程，感兴趣就关注
阅读更多2024-11-21
基于Springboot+Vue医院急诊系统(源码+PPT+LW+调试部署)
基于Spring Boot + Vue的医院急诊系统，旨在为患者提供便捷的医院急诊服务，同时提升医院的信息化管理水平。系统分为前台和后台两部分，前台功能包括医生信息、医院病房、医院论坛、医院资讯、个人
阅读更多2024-11-21
Gin 框架中的表单处理与数据绑定
Gin框架允许注册自定义验证规则。import ("regexp"// 注册自定义验证规则})首先，根据表单的需要定义一个或多个结构体。这些结构体应该清晰地反映表单数据的结构和类型
阅读更多2024-11-21
CAAS 和 IAAS
和是两种云服务模式，分别代表不同层次的云计算服务。
阅读更多2024-11-21
Spark 分布式计算中网络传输和序列化的关系（二）
Spark 中序列化和网络传输的优化直接关系到分布式计算的整体性能。结合高效的序列化工具（如 Kryo）和合理的网络传输策略（如压缩、分区优化），可以显著提高数据处理效率。中，网络传输和序列化是数据处
阅读更多2024-11-21

Spark 中 cache、persist 和 checkpoint 优化数据处理的三种重要机制介绍

1. 基本概念和作用

2. 核心原理

2.1 Cache

2.2 Persist

2.3 Checkpoint

3. 使用对比

4. 使用场景总结

Cache

Persist

Checkpoint

5. 综合优化建议

相关文章