Spark 读取 HDFS 文件时 RDD 分区数的确定原理与源码分析

🕗 发布于 2024-11-15 14:19 spark hdfs RDD分区

在 Spark 中，RDD 的分区数对于并行计算的效率非常重要，SparkCore 读取 HDFS 文件时 RDD 分区数的确定受多方面因素的影响。本文将从源码的角度分析 Spark 如何确定 RDD 分区数，并通过代码示例和案例帮助理解分区策略。

Spark RDD 分区数确定的源码解析

Spark 读取 HDFS 文件时，分区数主要由 文件块大小（block size）、分片大小（split size）、期望分区数（spark.default.parallelism）等参数共同决定。

1. `splitSize` 的确定

Spark 读取 HDFS 文件时，会根据文件的总大小和分区期望数来计算每个分区的大小（splitSize）。源码如下：

val goalSize = totalSize / math.max(minPartitions, 1)
val splitSize = Math.max(minSize, Math.min(goalSize, blockSize))

goalSize：每个分区的目标大小，由总文件大小除以分区数（minPartitions）计算得出。
splitSize：最终的分区大小，取 goalSize 与 HDFS blockSize 之间的较小值，确保每个分区数据量不会超过一个 HDFS 块的大小。

2. 代码示例：分区数计算

假设一个文件的大小为 1 GB，块大小为 128 MB，期望分区数（spark.default.parallelism）为 8。则每个分区的目标大小 goalSize 为 128 MB（1 GB / 8），最终的 splitSize 为 128 MB（和块大小相同）。这时文件会被分为 8 个分区。

3. 示例代码：RDD 分区数确定

import org.apache.spark.{SparkConf, SparkContext}

object HDFSPartitionExample {
  def main(args: Array[String]): Unit = {
    // 创建 SparkContext
    val conf = new SparkConf().setAppName("HDFS Partition Example").setMaster("local")
    val sc = new SparkContext(conf)

    // 读取 HDFS 文件
    val filePath = "hdfs://path/to/file"
    val rdd = sc.textFile(filePath, minPartitions = 8) // 设置最小分区数为 8
    println(s"分区数: ${rdd.getNumPartitions}")

    // 查看每个分区的数据量
    val partitionSizes = rdd.mapPartitionsWithIndex { (idx, iter) =>
      Iterator((idx, iter.size))
    }.collect()

    partitionSizes.foreach { case (index, size) =>
      println(s"分区 $index: 数据量 $size 条记录")
    }

    sc.stop()
  }
}

4. 实验结果分析

1 GB 文件，128 MB 块大小，8 个期望分区：生成 8 个分区，每个分区 128 MB。
1 GB 文件，64 MB 块大小，10 个期望分区：由于 goalSize 为 100 MB，实际每个分区大小取 64 MB（块大小）。生成 16 个分区，每个分区 64 MB。
1 GB 文件，256 MB 块大小，4 个期望分区：goalSize 为 250 MB，splitSize 为 250 MB，生成 4 个分区，每个分区 250 MB。

总结

Spark 通过 goalSize 和 blockSize 来平衡分区数量与块大小。
分区数会随着文件大小、块大小、期望分区数等参数变化。
分区数设定不合理会影响性能，例如分区数过多会导致任务调度开销增加，分区数过少则可能导致计算资源未充分利用。

原文地址：https://blog.csdn.net/z1941563559/article/details/143768477

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：【C语言】从3x5矩阵计算前三行平均值并扩展到4x5矩阵
下一篇：你觉得应该怎样阅读文献？

Nuxt.js 应用中的 schema：beforeWrite 事件钩子详解
钩子为开发者提供了一个灵活的接口，以便在写入 JSON Schema 之前进行必要的修改和验证。这使得开发者可以在构建过程中插入自定义逻辑，有助于提高应用的稳定性和准确性。钩子允许开发者在 JSON
阅读更多2024-11-17
Python习题 249：判断两个单词为相同字母异序词
（编码题）编写一个函数，判断两个单词（字符串）中有相同的单词（字符），即相同字母异序词。
阅读更多2024-11-17
第四章：ArkTS 语句全解：从基础到高级的控制流与异常处理
本文详细介绍了 ArkTS 中的多种语句，这些语句对于构建程序逻辑、控制执行流程和处理异常至关重要。
阅读更多2024-11-17
Vue.js中computed的使用方法
在Vue.js中，computed 属性是基于它们的依赖进行缓存的响应式属性。这意味着只要computed属性依赖的源数据（如data中的属性）没有发生变化，多次访问computed属性会立即返回之前
阅读更多2024-11-17
【团标】《软件造价评估实施规程》（T-BSCEA002—2023）-标准解读系列14
而对于软件造价业务开展过程中，基准数据以及相关调整因子的选取判定、评估工作开展具体步骤环节、造价输出成果要求（如造价清单、造价报告）等，《软件造价评估实施规程》（T-BSCEA002—2023）则提供
阅读更多2024-11-17
效益登记册&效益管理计划
-全生命周期会update。集商业论证、组织战略计划和其他相关项目集自标。定义管理效益所需的角色和职责;
阅读更多2024-11-17
我手搓了个“自动生成标书”的开源大模型工具
最近我写开源商业文章明显更新少了，不是我不写文章了，而是开源商业化进展很顺利，我写文章的时间都被各种写标书占满了。作为一个开源原生的商业公司，白鲸开源公司的员工几乎都是程序员，而让这些开源贡献者写标书
阅读更多2024-11-17
奥迪股份如何通过升级至SAP S/4HANA实现财务与后勤的高效整合？
为了避免成本高昂的临时解决方案，奥迪公司希望将所有工厂后勤（后勤和生产的一部分）同时迁移到SAP S/4HANA，并集成到生产模板“Progress”中。随着多个项目的筹备，奥迪股份公司在 2023
阅读更多2024-11-17
linux逻辑卷练习
从新硬盘制作三个分区每个分区都 3GB大小，将三个分区只作为物理卷，通过这三个物理卷创建卷组通过卷组生成一个逻辑卷，大小为7G，再将逻辑卷调整到10G。物理卷（physical volume）：简
阅读更多2024-11-17
Vagrant 没了 VirtualBox 的话可以配 Qemu
之前一直是用 Vagrant 搭配 VirtualBox 在 Mac 下使用 Linux 虚拟机，因为不需要用到 Linux 桌面，用 Vagrant 操作虚拟机非常方便。有些尚未听说过，还有一些虽说
阅读更多2024-11-17