Spark中的宽窄依赖-宽窄巷子

🕗 发布于 2024-11-05 16:26 spark 大数据 分布式

1、什么是依赖关系？

2、什么是宽窄依赖？

窄依赖：Narrow Dependencies

定义：父RDD的一个分区的数据只给了子RDD的一个分区【不用经过Shuffle】

特点：一对一或者多对一，不经过Shuffle，性能相对较快，但无法实现全局分区、排序、分组等

一个Stage内部的计算都是窄依赖的过程，全部在内存中完成。

宽依赖：Wide/Shuffle Dependencies

定义：父RDD的一个分区的数据给了子RDD的多个分区【需要调用Shuffle的分区器来实现】

特点：一对多，必须经过Shuffle，性能相对较慢，可以实现全局分区、排序、分组等

Spark的job中按照宽依赖来划分Stage

本质：只是一种标记，标记两个RDD之间的依赖关系

3、为什么要标记宽窄关系？

宽窄依赖是在说哪个算子是宽哪个算子是窄吗？不是，说的是两个算子之间的关系。

1）提高数据容错的性能，避免分区数据丢失时，需要重新构建整个RDD

场景：如果子RDD的某个分区的数据丢失
不标记：不清楚父RDD与子RDD数据之间的关系，必须重新构建整个父RDD所有数据
标记了：父RDD一个分区只对应子RDD的一个分区，按照对应关系恢复父RDD的对应分区即可

2）提高数据转换的性能，将连续窄依赖操作使用同一个Task都放在内存中直接转换

算子之间，能在内存中转换的就在内存中转换，效率高，碰到需要shuffler的算子，就只能把数据放在磁盘，让shuffer算子，去拉取数据，效率低，如果不标记，怎么知道哪些算子需要shuffer呢？

场景：如果RDD需要多个map、flatMap、filter、 reduceByKey、sortByKey等算子的转换操作

不标记：每个转换不知道会不会经过Shuffle，都使用不同的 Task来完成，每个Task的结果要保存到磁盘

标记了：多个连续窄依赖算子放在一个Stage中，共用一套 Task在内存中完成所有转换，性能更快。

原文地址：https://blog.csdn.net/GDDGHS_/article/details/143470724

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：RDD转换算子：【union 和 distinct】
下一篇：Linux 服务器使用指南：从入门到登录

python包管理工具pip和conda的使用对比
pip相对于conda,对应包的依赖关系管理不强，坏处是容易造成包冲突，好处是对于一些特定需要，可以避免处理包依赖关系，直接使用pip安装。一般deactivate 两次即可。2.1.0是相应包的版本
阅读更多2024-11-08
github.io出现的问题及解决方案
手动修改DNS，尝试过很多个DNS解析服务，只有首选DNS服务器设置为114.114.114.114，备用设置为208.67.222.222成功了一个下午，之后莫名打回原形，使用DNS jupmpe
阅读更多2024-11-08
HTML 块级元素和内联（行内）元素详解
块级元素是页面中的结构元素，它们独占一行，通常用于搭建页面的主要框架，如段落、容器、标题等。它们无论其内容多少，都会占据父元素的整个宽度。这种特性使得块级元素特别适合用于页面的整体布局和内容的分区组织
阅读更多2024-11-08
ACM社团第一次测试题解（禁止直接复制粘贴提交）
思路：解法一：暴力比较，两个数之间一直比较得出中位数解法二：快排函数，数组中间值即为中位数代码：1.c语言版：2.c++版：求和：思路：判断是否有两个数相加为第三个数即可代码：1.c语言版：2.c++
阅读更多2024-11-08
机器学习——排序特征（Ranking Features）原理详解
通过以上步骤，我们了解了排序特征的原理及实现过程。排序特征通过特征工程和点对、列表排序算法学习样本之间的相对顺序。RankNet 模型实现了点对比较，通过神经网络生成特征的排序分数。代码实现展示了如何
阅读更多2024-11-08
Django安装
在 Django 项目中，app是一个功能模块，它包含了特定的业务逻辑、数据模型和视图，是 Django 项目结构化管理的核心部分。python manage.py startapp app文件名称。
阅读更多2024-11-08
Centos 下安装 jsoncpp 库、bundle 数据压缩库、httplib 库 -- 详细教程
Centos 下安装 jsoncpp 库、bundle 数据压缩库、httplib 库
阅读更多2024-11-08
Linux（CentOS）安装 Nginx
Linux（CentOS）安装 Nginx。
阅读更多2024-11-08
golang笔记
本应在栈中内存,被分配到了堆中1 返回指针对象在外部被使用2 reutrn 函数使用了上面方法的敞亮3 入参是interface{} 动态参数4 make超过栈大小-gcflags="-
阅读更多2024-11-08
webworker
总结：js异步是始终要回到主线程的，webworker是不需要回到主线程，它自己创建一条线程自己去操作，这样主线程就可以不用管它，等它计算完了后，它可以主动把计算结果发给主线程（得主动发，不然收不到）
阅读更多2024-11-08