【spark面试】spark的shuffle过程

🕗 发布于 2024-11-06 15:27 spark 大数据 分布式面试 python

概述

所有的shuffle的过程本质上就是一个task将内存中的数据写入磁盘，然后另一个task将磁盘中的数据读入内存的过程。

对于mapreduce来说，我们将内存中的数据写入磁盘成为maptask，将磁盘中的数据读入内存称为reducetask。

而对于spark来说，有的算子的执行会同时会进行写入和读出，这就是shuffle算子，shuffle算子都是转换算子。

面试题1：什么是触发算子，什么是转换算子，什么是shuffle算子

触发算子：

take，count，saveAsTextFile，foreach，foreachpartition，min，max，mean，top，takeOrdered，collect，first，reduce。

转换算子：

filter，map，mapPartitions，flatMap，union，distict，mapValues，keys，values，sortBy，sortByKey，reduceByKey，groupBykey，repartition，coalesce，join类（join，fullOuterJoin，leftOuterJoin，rightOuterJoin）

shuflle算子：

flatMap，distinct，sortBy，sortByKey，reduceByKey，groupByKey，join类（join，fullOuterJoin，leftOuterJoin，rightOuterJoin），repartition，coalesce（根据情况）

spark中的shuffle

1）Hash Based Shuffle

特点：没有排序，只分区，每个Task按照ReduceTask个数生成多个文件【M * R】 
优点：简单，数据量比较小，性能就比较高 
缺点：小文件非常多，数据量比较大性能非常差

2）Hash Based Shuffle 【优化后的，File Consolidation机制】

两个Executor ，4个ReduceTask，那就是 2 * 4 = 8
进步在哪里？进度在于如果是以前 4 个 map 4 个 reduce  形成 16 个文件，现在引入 executor 以后，生成 8 个文件。

3）Sort Based Shuffle [目前最新的]

对于这种shuffle来说，需要将写和读分开展示

Shuffle Write

第一种：SortShuffleWriter：普通Sort Shuffle Write机制

与MR的Map端Shuffle基本一致
生成一个整体基于分区和分区内部有序的文件和一个索引文件
特点：有排序，先生成多个有序小文件，再生成整体有序大文件，每个Task生成2个文件，数据文件和索引文件

第二种：BypassMergeSortShuffleWriter

类似于优化后的Hash Based Shuffle
先为每个分区生成一个文件，最后合并为一个大文件，分区内部不排序
跟第一个相比，处理的数据量小，处理的分区数小于200 ，不在内存中排序。
场景：数据量小

第三种：UnsafeShuffleWriter

Partition个数不能超过2^24-1个（大于200用这个）
场景：数据量大

Shuffle Read

只有一种

类似于MapReduce中的Reduce端shuffle

MR：Reduce端的shuffle过程一定会经过合并排序、分组

原文地址：https://blog.csdn.net/weixin_52642840/article/details/143505456

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：WPF XAML
下一篇：计算机毕业设计Hadoop+大模型地震预测系统地震数据分析可视化地震爬虫大数据毕业设计 Spark 机器学习深度学习 Flink 大数据

如何有效销售和应用低代码软件？探索其市场机会与策略
综上所述，有效销售和应用低代码软件是一个涉及多方面的复杂过程。我们需要充分认识其优势和市场需求，建立强大的合作伙伴网络，并提供定制化的解决方案。同时，还需要优化销售策略，加强培训和技术支持。通过上述措
阅读更多2024-11-08
C字符串 | 字符串处理函数 | 使用 | 原理 | 实现
字符串是一系列字符组成的序列，C语言中字符串以\0结尾。
阅读更多2024-11-08
深入学习指针（5）！！！！！！！！！！！！！！！
时，被调⽤的函数就是回调函数。回调函数不是由该函数的实现⽅直接调⽤，⽽是在特定的事件或条。如果你把函数的指针（地址）作为参数传递给另⼀个函数，当这个指针被⽤来调⽤其所指向的函数。strcpm比较俩字符
阅读更多2024-11-08
eval: jdk1.8.0_431/jre/bin/java: Permission denied
当您在启动Tomcat或其他Java应用时遇到“Permission denied”错误，这通常表示当前用户没有执行指定Java可执行文件的权限。
阅读更多2024-11-08
数字信号处理Python示例（8）使用复数指数函数生成正弦函数和余弦函数
首先给出使用复数指数函数生成正弦函数和余弦函数的数学表达式，然后给出Python仿真代码，并绘制了生成的函数图形，最后给出了仿真分析。
阅读更多2024-11-08
基于SSM（Spring + Spring MVC + MyBatis）框架的文物管理系统
用户管理：管理员可以添加、删除、修改和查询用户信息。文物管理：支持对文物信息的增删改查操作，包括文物名称、年代、类型、保存状态等。展览管理：记录展览信息，如展览名称、开始时间、结束时间、展品列表等。借
阅读更多2024-11-08
Caused by: org.apache.flink.api.common.io.ParseException: Row too short:
path为文件地址， fieldDelimiter为分隔符，文件内容是字段|字段的格式，所以fieldDelimiter为|通过flink中的flinkSql直接使用对应的connector去获取cs
阅读更多2024-11-08
【论文阅读笔记】CamoFormer: Masked Separable Attention for Camouflaged Object Detection
CamoFormer：用于隐藏目标检测的掩蔽可分离注意力TPAMI 2024PaperCode如何从背景中识别和分割隐藏的对象是一个挑战。受transformer中多头自注意的启发，提出了一种简单的掩
阅读更多2024-11-08
计算机视觉基础：OpenCV库详解
OpenCV 是一个开源的计算机视觉库，支持多种编程语言（如 C++、Python、Java 等），并在多个平台上可用（如 Windows、Linux、macOS）。OpenCV 提供了大量的图像处理
阅读更多2024-11-08
React Native的生命周期
React Native 组件的生命周期方法有助于开发者在不同阶段管理组件的行为，尤其在处理网络请求、事件监听器、定时器等副作用时，生命周期方法显得尤为重要。在实际项目中，合理使用这些生命周期方法可以
阅读更多2024-11-08