Spark RDD sortBy算子什么情况会触发shuffle

🕗 发布于 2024-11-16 10:26 spark 大数据 RDD sortBy shuffle

在 Spark 的 RDD 中，sortBy 是一个排序算子，虽然它在某些场景下可能看起来是分区内排序，但实际上在需要全局排序时会触发 Shuffle。这里我们分析其底层逻辑，结合源码和原理来解释为什么会有 Shuffle 的发生。

1. 为什么 `sortBy` 会触发 Shuffle？

关键点 1：全局有序性要求

sortBy 并非单纯的分区内排序。它的目标是按照用户指定的键对整个 RDD 的数据进行排序，这种操作需要保证全局顺序。为实现这一点，必须：

对数据进行 重新分区（Repartition），确保每个分区中的数据按照全局范围内的排序键正确分布；
每个分区内部再完成排序。

这些步骤不可避免地引入了 Shuffle，因为数据需要从一个分区转移到另一个分区以保证全局有序性。

关键点 2：底层调用 `repartitionAndSortWithinPartitions`

sortBy 的底层实现会调用 repartitionAndSortWithinPartitions 方法：

this.keyBy(f).repartitionAndSortWithinPartitions(
  new RangePartitioner(numPartitions, this, ascending))(ordInverse).values

keyBy(f)：
- 将数据转化为 (key, value) 格式，key 是排序的关键字，value 是原始数据。
RangePartitioner：
- 使用 RangePartitioner 将数据根据排序键重新分区（这一步需要 Shuffle）。
repartitionAndSortWithinPartitions：
- 先 Shuffle 数据以保证每个分区内的 key 是按范围划分的；
- 然后对每个分区内的数据进行排序。

Shuffle 的触发

当目标分区数量与当前分区数量不一致时（用户指定分区数或默认分区数），会触发 Shuffle；
即使目标分区数一致，只要需要保证全局有序，也需要重新分布数据来确保各分区内数据按键范围划分。

2. Shuffle 的作用

全局排序：分区间重新分布数据，确保所有分区的排序键范围是连续的。
负载均衡：通过 RangePartitioner 分布数据，避免某些分区过大或过小的问题。
分区内排序：确保每个分区内部数据按键排序。

3. 源码分析

repartitionAndSortWithinPartitions 的核心逻辑如下：

def repartitionAndSortWithinPartitions(
    partitioner: Partitioner)(
    implicit ord: Ordering[K]): RDD[(K, V)] = withScope {
  val shuffled = new ShuffledRDD[K, V, V](this, partitioner)
  shuffled.setKeyOrdering(ord)
  new MapPartitionsRDD(shuffled, (context, pid, iter) => {
    val sorter = new ExternalSorter[K, V, V](context, Some(partitioner), Some(ord))
    sorter.insertAll(iter)
    context.taskMetrics().incMemoryBytesSpilled(sorter.memoryBytesSpilled)
    context.taskMetrics().incDiskBytesSpilled(sorter.diskBytesSpilled)
    context.taskMetrics().incPeakExecutionMemory(sorter.peakMemoryUsedBytes)
    sorter.iterator
  })
}

ShuffledRDD：
- 触发 Shuffle，将数据根据分区器重新分布。
ExternalSorter：
- 对每个分区内的数据进行排序（如果数据超出内存，会使用磁盘作为临时存储）。

4. 举例说明 Shuffle 的发生

sortBy 的行为取决于传递的参数。为了实现分区内排序，你需要明确控制 sortBy 的参数设置。如果不显式指定目标分区数（numPartitions 参数），sortBy 默认不会触发 Shuffle，因此只会在分区内排序。

例子 1：带 Shuffle 的全局排序

显式传递 numPartitions 参数，并设置目标分区数。此时会触发数据的重新分区，确保全局顺序：

val rdd = sc.parallelize(Seq(5, 2, 4, 3, 1), numSlices = 2)
val sortedRdd = rdd.sortBy(x => x, ascending = true, numPartitions = 3)// 指定目标分区数
println(sortedRdd.collect().mkString(", "))

初始数据分区：
分区 1：[5, 2]，分区 2：[4, 3, 1]
重新分区和排序后：
分区 1：[1, 2]，分区 2：[3, 4]，分区 3：[5]
Shuffle 触发原因：
数据必须重新分布，确保分区键范围（[1-2], [3-4], [5]）。
特点：
触发 Shuffle 操作，数据按照 RangePartitioner 进行分区。
每个分区内局部排序后，实现全局排序。

例子 2：分区内排序（无 Shuffle）

直接使用 sortBy 而不传递 numPartitions 参数：

val rdd = sc.parallelize(Seq(5, 2, 4, 3, 1), numSlices = 2) // 两个分区
val sorted = rdd.sortBy(x => x) // 未指定 numPartitions，默认分区数不变
// 如果只需要分区内排序，mapPartitions 提供了无 Shuffle 的选择。
// val sortedRdd = rdd.mapPartitions(partition => partition.toList.sorted.iterator)
sorted.collect().foreach(println)

初始数据分区：
分区 1：[5, 2]，分区 2：[4, 3, 1]
排序后：
分区 1：[2, 5]，分区 2：[1, 3, 4]
无 Shuffle 原因：
数据仅在分区内排序，分区间顺序无全局保证。

5. 总结

sortBy 在需要全局排序时触发 Shuffle，这是为了重新分区以确保分区范围和分区内排序。
如果只需要分区内排序，mapPartitions 提供了无 Shuffle 的选择。

注意事项：

全局排序带来的 Shuffle 会显著增加网络传输和计算成本。
如无必要，尽量避免全局排序，优先考虑局部排序或 Top-N 算法以优化性能。

原文地址：https://blog.csdn.net/z1941563559/article/details/143810267

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：Django 2024全栈开发指南（三）：数据库模型与ORM操作（上篇）
下一篇：ubuntu24.04设置开机自启动Eureka

C# yolo10使用onnx推理
本篇总结C#端使用yolo10的onnx文件做模型推理，主要使用Microsoft.ML.OnnxRuntime.Gpu这个库。需要注意的是Microsoft.ML.OnnxRuntime 和 Mic
阅读更多2024-11-18
【软件测试】界面、功能、性能、可靠性、安全性（SQL注入、越权）、易用性测试，静态和动态测试
功能测试是为了确保程序以期望的⽅式运⾏⽽按功能要求对软件进⾏的测试，通过对⼀个系统的所有的特性和功能都进⾏测试确保符合需求和规范。软件测试是软件⽣命周期中的⼀个重要环节，具有较⾼的复杂性，对于软件测试
阅读更多2024-11-18
nfs服务器
NFS，网络文件系统）是FreeBSD支持的文件系统中的一种，它允许网络中的计算机（不同的计算机、不同的操作系统）之间通过TCP/IP网络共享资源，主要在unix系列操作系统上使用。在NFS的应用中，
阅读更多2024-11-18
金山云大数据面试题及参考答案
栈（Stack）栈是一种数据结构，它遵循后进先出（LIFO - Last In First Out）的原则。可以把栈想象成一个一端封闭的圆筒，元素只能从开口的一端进出。在计算机内存中，栈主要用于存储函
阅读更多2024-11-18
c++自制游戏（优化）
cout << "******************0、退出************************" << endl;cout <<
阅读更多2024-11-18
C++ -class
类的简介
阅读更多2024-11-18
Cobalt Strike 4.8 用户指南-第九节 Pivoting（跳板）
Pivoting，在本手册中，指的是"将一个受害机器转为其他攻击和工具的跳板"。的Beacon提供了多种pivoting选项。前提是Beacon处于交互模式。交互模式意味着一个Be
阅读更多2024-11-18
达梦 DG
以上步骤和命令提供了达梦DGswitchover的详细操作流程，确保在执行切换操作前，所有的检查和准备工作都已就绪，以保证切换过程的顺利进行。• 检查备库监听配置文件，如tnsnames.ora，并提
阅读更多2024-11-18
Mybatis查询ORACLE数据库相近字段名称的值在映射出来的对象中被覆盖
oracle数据库中有一个表，一个字段的名叫做HEA_MUR，一个字段的名叫HEAMUR，两个字段都是字符串类型。
阅读更多2024-11-18
用Redis实现分布式锁
它的核心思想是通过多个独立的 Redis 实例来增加容错性，确保即使某些实例发生故障或数据不同步，仍然能够提供高可用的分布式锁服务。通常情况下，锁是“非重入”的，也就是说，锁只能被持有它的客户端释放，
阅读更多2024-11-18