Spark中的宽窄依赖

🕗 发布于 2024-11-05 11:15 spark 大数据 分布式

一、什么是依赖关系

这里通过一张图来解释：

result_rdd是由tuple_rdd使用reduceByKey算子得到的，而tuple_rdd是由word_rdd使用map算子得到的，word_rdd又是由input_rdd使用flatMap算子得到的。它们之间的关系就称为依赖关系！

二、什么是宽窄依赖

窄依赖：父RDD的一个分区的数据只给了子RDD的一个分区【不用经过Shuffle】

特点：一对一或者多对一，不经过Shuffle，性能相对较快，但无法实现全局分区、排序、分组等

一个Stage内部的计算都是窄依赖的过程，全部在内存中完成。

宽依赖：父RDD的一个分区的数据给了子RDD的多个分区【需要调用Shuffle的分区器来实现】

特点：一对多，必须经过Shuffle，性能相对较慢，可以实现全局分区、排序、分组等

Spark的job中按照宽依赖来划分Stage

宽窄依赖本质：只是一种标记，标记两个RDD之间的依赖关系

三、为什么要标记宽窄关系

1、提高数据容错的性能，避免分区数据丢失时，需要重新构建整个RDD

举例：如果子RDD的某个分区的数据丢失

不标记：不清楚父RDD与子RDD数据之间的关系，必须重新构建整个父RDD所有数据
标记了：父RDD一个分区只对应子RDD的一个分区，按照对应关系恢复父RDD的对应分区即可

2、提高数据转换的性能，将连续窄依赖操作使用同一个Task都放在内存中直接转换

举例：如果RDD需要多个map、flatMap、filter、 reduceByKey、sortByKey等算子的转换操作

不标记：每个转换不知道会不会经过Shuffle，都使用不同的 Task来完成，每个Task的结果要保存到磁盘
标记了：多个连续窄依赖算子放在一个Stage中，共用一套 Task在内存中完成所有转换，性能更快。

原文地址：https://blog.csdn.net/m0_57764570/article/details/143434391

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：.NET 使用Expression构造多条件动态查询表达式树方法
下一篇：单例模式的概念和用处

【matlab版】如何估算波形信号的幅值、频率与相位
频率的估算是通过查找信号中的峰值并计算相邻峰值之间的平均时间差来实现的。幅值的估算是通过信号的最大值和最小值来计算的。相位的估算是通过第一个峰值的值和幅值来实现的。
阅读更多2024-11-07
A15基于Spring Boot的宠物爱心组织管理系统的设计与实现
宠物爱心组织管理系统管理系统按照操作主体分为管理员和用户。管理员的功能包括备忘录管理、宠物管理、宠物收藏管理、宠物评价管理、宠物订单管理、字典管理、公告管理、捐赠管理、流浪管理、流浪收藏管理、流浪评价
阅读更多2024-11-07
随着FAB的发布，在FAB中使用Megascans的简单方法（适用于Unreal Engine 5）
在2024年12月31号前获取在FAB中使用Megascans的简单方法（适用于Unreal Engine 5）
阅读更多2024-11-07
Ubuntu22.04 安装图形界面以及XRDP教程
本文主要解决ubuntu服务器远程图形化界面的问题，可以照做，步骤简单
阅读更多2024-11-07
【Linux系列】Linux 和 Unix 系统中的`set`命令与错误处理
💝💝💝欢迎来到我的博客，很高兴能够在这里和您见面！希望您在这里可以感受到一份轻松愉快的氛围，不仅可以获得有趣的内容和知识，也可以畅所欲言、分享您的想法和见解。非常期待和您一起在这个小小的网络世界里共同
阅读更多2024-11-07
基于vue框架的的楼盘销售管理系统6n60a（程序+源码+数据库+调试部署+开发环境）系统界面在最后面。
此外，该系统还有助于企业实现房源信息的集中管理和高效利用，减少信息孤岛现象，提高数据的准确性和可靠性。传统的销售管理方式依赖于人工记录和纸质文档，效率低下且容易出错，无法满足现代房地产企业对数据精准性
阅读更多2024-11-07
[Mysql] 介绍一下PROCEDURE、TRIGGERS和EVENTS
PROCEDURE、TRIGGERS和EVENTS分别指什么？以及分别在声明场景下使用
阅读更多2024-11-07
linux终端控制进程的前后台执行
这样，命令会立即返回终端提示符，同时脚本在后台继续执行。你可以继续在终端中执行其他命令。在执行命令时，在命令后面加上“&”，该进程就会在后台运行。例如，运行一个长时间运行的脚本。表示作业号为1
阅读更多2024-11-07
k8s Sidecar代理
Sidecar 代理是一种灵活而强大的设计模式，广泛用于微服务和 Kubernetes 集群中，用来提升网络管理、监控、日志记录和安全性的能力。虽然它增加了一定的复杂性和资源消耗，但为应用隔离职责、提
阅读更多2024-11-07
【Rust中的迭代器】
迭代是指，在一个过程中反复重复，不断推进。在计算机领域，迭代是重复执行某一个过程的方法，每一次执行都基于上一次执行的结果。迭代器用于接入和迭代数据结构中的元素,通过"指向"他们，在
阅读更多2024-11-07

Spark中的宽窄依赖

一、什么是依赖关系

二、什么是宽窄依赖

三、为什么要标记宽窄关系

相关文章