spark 大表与大表join时的Shuffle机制和过程

🕗 发布于 2024-09-25 10:24 spark 大数据 分布式

在 Spark 中，当处理大表与大表的 JOIN 操作时，通常会涉及到 Shuffle 机制，这是分布式计算中用于重新分布数据的关键步骤。Shuffle 的本质是将数据按照某种方式重新分组，使得相同 key 的数据能够被发送到同一个计算节点进行后续的操作。以下是详细的 Shuffle 机制在大表与大表 JOIN 操作中的工作过程，涵盖底层原理和源代码相关内容。

一、Shuffle 基本原理

Shuffle 是 Spark 中用于处理需要跨多个分区（节点）计算的任务的关键机制。大体分为以下几个阶段：

Map 阶段：将数据进行分区，并根据 key（用于 JOIN 的 key）进行 hash 分布。
Shuffle 阶段：将 Map 阶段输出的数据发送到不同的 Reduce 任务中。每个 Reduce 任务负责处理特定的 key。
Reduce 阶段：对相同 key 的数据进行操作，完成 JOIN、GROUP BY 等计算。

在大表与大表 JOIN 时，数据量大且分布不均的 key 会导致 Shuffle 中的网络IO传输数据量巨大，因此这部分成为性能瓶颈的关键。

二、Shuffle 在 Join 中的工作流程

对于大表与大表 JOIN 的情况，常见的操作类型是基于 key 的 equi-join（等值连接）。具体的执行过程如下：

第一步：读入数据
Spark 会从数据源（如 HDFS、Hive 表等）中读取两个大表的数据，分别分布在不同的分区上。每个分区的数据是局部的，不包含全局的信息。
第二步：Map 阶段进行数据分区
在 JOIN 操作中，Spark 会根据 key 值进行数据的哈希分区。每个分区根据 key 进行 hash，然后将相同 hash 值的 key 数据分发到相同的 Reduce 节点。例如，如果两个表都要根据 user_id 进行连接，Spark 会对 user_id 进行 hash 计算。

在代码中，这一部分对应 RDD 的 partitionBy 操作（对于 DataFrame/Dataset 则是底层物理计划的分区操作）。ShuffledRDD 负责这一逻辑的实现。

伪代码展示：
```
// 对表A和表B的key进行分区
val partitionedTableA = tableA.partitionBy(new HashPartitioner(numPartitions))
val partitionedTableB = tableB.partitionBy(new HashPartitioner(numPartitions))
```
第三步：Shuffle 过程
Shuffle 是一个将 Map 阶段计算的结果数据从一个计算节点发送到另一个计算节点的过程。对于 JOIN 操作，Shuffle 的目的是确保相同 key 的数据被分发到相同的节点上。

在 Shuffle 过程中，Spark 会使用 shuffle write 将本地数据写到磁盘或网络中，然后通过网络将这些分区数据发送到目标节点。接着，shuffle read 负责从其他节点上读取相应分区的数据。

ShuffleMapTask 是负责执行 Shuffle 写阶段的任务类型， ShuffleManager 管理整个 Shuffle 的过程，默认实现为 SortShuffleManager。

伪代码展示：
```
// 执行 shuffle，将 A 和 B 按照 key hash 之后分布到不同节点
partitionedTableA.join(partitionedTableB)
```
Shuffle 的详细步骤：
- Shuffle Write： 每个 map 任务计算完局部数据后，会将数据写入本地磁盘的文件系统或存储在内存中。数据以 partition 为单位写出，针对每个分区分别存储。
- Shuffle Read： Reduce 任务会根据分区信息从其他节点拉取数据，读取与自己分区匹配的数据块进行处理。
第四步：Reduce 阶段进行 JOIN 计算
在 Shuffle 结束后，每个节点已经得到了自己负责的分区数据。接下来，Spark 会执行 JOIN 操作。对于 equi-join，Spark 会对每个分区中的数据进行匹配（类似于 merge join 或者 hash join）。因为相同 key 的数据已经被分布到同一个分区，所以可以直接进行连接操作。

在源码层面，ShuffledRowRDD 是 Shuffle Read 后构造的 RDD，ShuffleRowJoinExec 是执行实际 JOIN 操作的物理计划节点。
第五步：输出结果
Reduce 阶段完成 JOIN 操作后，结果会写入到相应的输出位置（如内存、磁盘、或是其他表中）。

三、代码层面关键类和函数

Shuffle 相关类和接口
- ShuffleManager: 管理 Shuffle 过程的接口，决定如何进行数据的 Shuffle。默认实现为 SortShuffleManager，其主要负责将数据按 key 排序后写入并读取。
- ShuffleDependency: 定义了数据 Shuffle 的依赖关系，描述了需要 Shuffle 的 RDD 和其 Partitioner。
- ShuffleMapTask: 执行 Shuffle 写操作的 Task。
- ShuffledRowRDD: 负责处理 Shuffle 读取后的数据。
Join 相关类
- ShuffleExchangeExec: 执行 Shuffle 数据的交换操作，用于分区。
- BroadcastHashJoinExec: 当 JOIN 其中一张表较小时，可以采用广播机制避免 Shuffle。
- SortMergeJoinExec: Spark 默认的大表与大表 JOIN 算法，适合排序后的数据。
- ShuffledHashJoinExec: 基于 Shuffle 后的哈希 Join，适合大数据量。
关键函数
- partitionBy: 根据给定的 Partitioning 函数对 RDD 进行重新分区。
- shuffle: 将 RDD 按 key 进行 shuffle，涉及到数据的写入和读取。
- join: DataFrame API 中的 join 函数封装了不同的 JOIN 算法，包括 Sort-Merge Join 和 Broadcast Join。

四、优化 Shuffle 的策略

由于大表 JOIN 时的 Shuffle 会产生大量的磁盘 I/O 和网络传输，以下是一些常见的优化策略：

Broadcast Join（广播连接）：当一张表很小而另一张表很大时，可以使用广播机制避免 Shuffle，即将小表广播到每个节点。这避免了大表的 Shuffle 操作，极大提高性能。

通过设置：
```
spark.conf.set("spark.sql.autoBroadcastJoinThreshold", 10 * 1024 * 1024) // 10MB
```
Partition 数量的调优：合理设置分区数量（spark.sql.shuffle.partitions）可以减少单个分区的数据量过大或过小的问题，进而减小 Shuffle 阶段的网络开销。
合并小文件：启用 spark.shuffle.file.buffer 和 spark.reducer.maxSizeInFlight 来优化 Shuffle 文件的缓冲区和网络传输时的最大文件大小，以减少磁盘 I/O 的次数。
Skew Join 处理：对于数据倾斜的场景，可以采用 Skew Join（倾斜 Join）的方式，将倾斜的 key 拆分到多个分区进行处理，减小单个 Reduce 任务的压力。

五、总结

在 Spark 的大表 JOIN 过程中，Shuffle 机制是核心的步骤，其主要职责是重新分发数据使得相同 key 的记录能够分布到同一个节点。Shuffle 的开销主要在于数据的网络传输和磁盘 I/O，因此有效的分区策略、数据倾斜处理以及 JOIN 算法选择都是优化此过程的关键。通过对 Shuffle 源码和物理执行计划的理解，可以帮助开发者更好地调优 Spark 应用的性能。

原文地址：https://blog.csdn.net/goTsHgo/article/details/142479873

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：Java Web应用升级故障案例解析
下一篇：mamba-ssm安装说明（Ubuntu）

C1-5第五章手把手教！不会可主页联系！！！ABB实体机器人功能选项开通流程——升级导入实体机器人添加选项详细说明
成功ABB实体机器人功能选项开通流程
阅读更多2024-09-27
Ansible 剧本的执行
Ansible 剧本（playbook）是一种用于定义和自动化 IT 任务的工具，它使用 YAML 格式编写，能够描述一系列的任务和操作，以实现对服务器、网络设备等的配置管理和部署。
阅读更多2024-09-27
废品回收小程序：回收更加便捷！
为了提高回收中的便捷性，废品回收小程序成为了越来越多人的选择，居民在小程序上下单，回收员根据信息上门回收，减少了回收流程的繁琐性。废品回收小程序中拥有多种回收种类，废纸壳、金属、塑料、旧衣物等都可以回
阅读更多2024-09-27
一种求解城市场景下无人机三维路径规划的高维多目标优化算法，MATLAB代码
路径规划使用智能优化算法寻找最优路径，路径优化考虑飞行速度和能量消耗等因素，路径仿真验证路径的安全性和可行性，最后将规划路径发送给无人机执行。*：该方法首先利用RRT算法生成一条粗略的初始路径，然后通
阅读更多2024-09-27
李宏毅机器学习2023-HW11-Domain Adaptation
李宏毅机器学习2023-HW11
阅读更多2024-09-27
word中的表格全部设置宽度100%
我们用工具将数据库或其他的数据导出成word时，表格有的会大于100%，超过了边界。word没有提供全局修改的方法。如果我们想改成100%。
阅读更多2024-09-27
PowerBI概述
连接到数据转换和清理数据、创建模型创建视觉对象，如提供数据的可视化表示形式的图表或图形创建报表（在一个或多个报表页上创建作为视觉对象集合的报表共享报表（使用 Power BI 服务与其他人共享报表Po
阅读更多2024-09-27
如何通过费曼技巧理解复杂主题
记住，简洁是关键：在你的解释中，避免使用术语和复杂的语言。这种方法不仅对你的学习者有益，还能强化你对该主题的掌握。接下来，识别知识中的空白：在解释过程中，注意你踌躇或不确定的时刻。分享可以巩固你的知识
阅读更多2024-09-27
AI智能时代：哪款编程工具让你的工作效率翻倍？
当今快节奏的开发环境中，选择合适的编程工具已经成为提升开发者工作效率的关键所在。不同的工具可以帮助我们简化代码编写、自动化任务、提升调试速度，甚至让团队协作更加顺畅。那么，哪款编程工具能真正让你的工作
阅读更多2024-09-27
PMI-ACP®认证考试内容将于2025年第一期考试更新
十年时间，我们见证了敏捷实践方法普及和敏捷项目管理的“知行合一”，采用敏捷方法的中国企业团队比例的快速持续增长，中国PMI-ACP专业人士的全球占比也从零增长到目前的34%。为了进一步提升PMI-AC
阅读更多2024-09-27