Spark中的shuffle过程详细

🕗 发布于 2024-11-10 18:01 spark 大数据 分布式

一、Spark中哪些算子会产生Shuffle

全局分组：reduceByKey，groupByKey

全局排序：sortBy，sortByKey

增大分区:repartition,coalese

groupByKey sortByKey sortBy reduceByKey repartition
coalesce(根据情况) join / fullOuterJoin / leftOuterJoin / rightOuterJoin

二、Spark中有哪些shuffle分类

Hash Based Shuffle （老的） Sort Based Shuffle 新的shuffle工具中包含Tungsten-Sort Based Shuffle

1、Hash Based Shuffle

没有排序，只有分区，每个Task按照ReduceTask个数生成【M*R】，简单数据量比较小，性能就比较高，但是：小文件非常多，数据量比较大性能非常差

2、Hash Based Shuffle 优化后，File Consolidation机制

没有排序，只有分区，每个Executor按照ReducTask个数生成多个文件：Executor*R

3、Sort Based Shuffle 目前是最新的

分为两个

Shuffle Write：类似于mr中map端的shuffle，但是Spark的Shuffle Write有3种，会根据情况自动判断选择哪种Shuffle Write

Shuffle Read：类似与mr种的reduce端shuffle，但是Spark的Shuffle Read功能由算子决定，不同算子经过的过程不一样

SortShuffleWrite：普通 Sort Shuffle Write

排序，生成一个整体基于分区和分区内部有序的文件和一个索引文件，有序排序，先生成多个小文件，再生成整体有序大文件，每个Task生成2个文件，数据文件和索引文件，Sort Shuffle Write过程与MapReduce的Map端shuffle基本一致

BypassMergeSortShuffleWriter：

类似与序列化后的Hash Based Shuffle，先每个分区生成一个文件，最后合并为一个大文件，分区内部不排序，分区数小于200，并且没有map端的聚合操作，适用于数据量小的数据，不在内存中排序

UnsafeShuffleWriter

钨丝计划方案，使用UnSafe API操作序列化数据，使用压缩指针存储元数据，溢写合并使用fastMerge提升效率，Map端没有聚合操作、序列化方式需要支持重定位，Partition个数不能超过2^24-1个

什么时候下使用ShuffleWriter

ShuffleWriter的实现方式

BypassMergeSortShuffleWriter

使用这种shuffle writer的条件是，没有map端的聚合操作，分区数小于参数：spark.shuffle.sort.bypassMergeThreshold，默认是200

UnsafeShuffleWriter

使用这种shuffle writer的条件是，序列化工具类支持对象的重定位，不需要在map端进行聚合操作，分区数不能大于：PackedRecordPointer.MAXIMUM_PARTITION_ID + 1

SortShuffleWriter

若以上两种shuffle writer都不能选择，则使用该shuffle writer类。
这也是相对比较常用的一种shuffle writer。

Shuffle Read：类似于MapReduce中的Reduce端shuffle

Reduce端的shuffle过程一定会经过合并排序、分组，不需要排序，依旧会给结果进行排序

原文地址：https://blog.csdn.net/KasarJ/article/details/143578204

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：目标检测的不同检测器
下一篇：Rollup failed to resolve import “destr“ from ***/node_modules/pinia-plugin-pers

防火墙----iptables
防火墙会从以上至下的顺序来读取配置的策略规则，在找到匹配项后就立即结束匹配工作并去执行匹配项中定义的行为（即放行或阻止）。如果在读取完所有的策略规则之后没有匹配项，就去执行默认的策略。iptables
阅读更多2024-11-18
Python代码热流系统进行建模分析
从指定的Excel文件中读取与热流相关的数据，包括管径、长度、压力、流量、入口过冷焓等参数。根据读取的数据，利用库计算多种水的物性参数，如饱和焓值、密度、比热容、粘度等。通过一系列复杂的物理公式和迭代
阅读更多2024-11-18
二、vue指令
点击展开或收起时，把内容区域显⽰或者隐藏。v-bind:属性名="vue变量"指代事件对象传给事件处理函数。⽅便通过变量控制⼀套标签出现。修饰符给事件扩展额外功能。修饰符名即可使⽤
阅读更多2024-11-18
信奥学习规划（CSP-J/S)
CSP - J/S（非专业级软件能力认证 - 入门级 / 提高级）的信奥学习规划
阅读更多2024-11-18
ctfshow DSBCTF web部分wp
需要值不同而 md5 相同，有长度限制不能进行强碰撞，尝试数组绕过也不行，这里注意到可以让其类型不同而值相同进行绕过，构造 pop 链最后得到 flag。
阅读更多2024-11-18
【Linux】进程的优先级
cpu资源分配的先后顺序，就是指进程的优先权（priority）。优先权高的进程有优先执行权利。配置进程优先权对多任务环境的linux很有用，可以改善系统性能。还可以把进程运行到指定的CP
阅读更多2024-11-18
Linux—进程学习-02
进程相关的概念的学习【利用系统调用fork创建子进程】【利用fork实现多进程】【操作系统层面上进程状态运行、阻塞、挂起的理解和学习】【Linux操作系统具体的进程状态的理解和学习（R、S、T、t、D
阅读更多2024-11-18
HMI FUXA测试
FUXA是基于Web的，过程（SCADA、HMI、看板等）可视化软件。可创建现代的过程可视化，使用独立的设计器，显示机器和实时数据。。
阅读更多2024-11-18
基于Java Springboot城市交通管理系统
城市交通管理系统的目的是让使用者可以更方便的将人、设备和场景更立体的连接在一起。能让用户以更科幻的方式使用产品，体验高科技时代带给人们的方便，同时也能让用户体会到与以往常规产品不同的体验风格。这就意味
阅读更多2024-11-18
pytorch中的ImageFolder 用法
是 PyTorch 中模块提供的一个常用类，用于从文件夹中加载图像数据。它是一种非常方便的方式来加载按文件夹结构组织的图像数据集。这个类能够自动将文件夹中的子目录作为标签，并且将其中的图像文件加载为
阅读更多2024-11-18

Spark中的shuffle过程详细

一、Spark中哪些算子会产生Shuffle

二、Spark中有哪些shuffle分类

1、Hash Based Shuffle

2、Hash Based Shuffle 优化后，File Consolidation机制

3、Sort Based Shuffle 目前是最新的

SortShuffleWrite：普通 Sort Shuffle Write

BypassMergeSortShuffleWriter：

UnsafeShuffleWriter

ShuffleWriter的实现方式

BypassMergeSortShuffleWriter

UnsafeShuffleWriter

SortShuffleWriter

Shuffle Read：类似于MapReduce中的Reduce端shuffle

相关文章