Spark架构及运行流程

🕗 发布于 2024-12-10 23:49 spark 架构 大数据

Spark架构图

在这里插入图片描述

Driver：

解析用户的应用程序代码，转化为作业(job)。
创建SparkContext上下文对象，其负责与资源管理器(ClusterManager)通信，进行资源的申请、任务的分配和监控等。
跟踪Executor的执行情况。
可通过UI界面查询运行情况。

Cluster Manager：

Cluster Manager负责管理集群资源的分配。常用的Cluster Manager有Standalone模式、YARN和Mesos。
它负责从集群中的节点上获取计算资源并监控资源使用情况。

Executors：

Executors是实际执行任务的工作进程，运行在集群节点上。
每个Executor负责执行任务并存储数据。
向Driver节点注册并反馈任务执行状态。

Tasks：

运行在Executor上的最小计算单元。

Spark运行流程图

在这里插入图片描述

当执行一个Spark Application时，整个过程如下：

Driver初始化：

应用程序的main函数由Driver执行，Driver创建一个SparkContext。
SparkContext负责与集群管理器通信，申请资源并协调任务的分配和监控。

资源申请与Executor启动：

SparkContext向集群管理器注册并申请资源，具体来说，申请运行Executor的计算资源。
集群管理器根据资源情况为Executor分配资源，并启动相应的Executor进程。
启动的Executor会定期向集群管理器汇报自己的运行状态。

DAG图构建与任务调度：

SparkContext根据程序中的RDD依赖关系构建一个**DAG（有向无环图）**图。
DAG图提交给DAGScheduler进行解析，DAGScheduler将图分解成多个Stage。
每个Stage由多个任务组成，这些任务被打包成TaskSet，然后提交给TaskScheduler进行调度。

任务执行与结果返回：

TaskScheduler将任务分发到Executor执行，同时SparkContext将应用程序代码发送给Executor。
任务执行结束后，Executor将计算结果返回给Driver，或将结果写入HDFS、数据库等外部存储。
运行完毕后释放所有资源。

原文地址：https://blog.csdn.net/qq_14815605/article/details/144245024

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：基于 Spring Boot + Vue 的宠物领养系统设计与实现
下一篇：LeetCode 198.打家劫舍

.NET(C#) 如何配置用户首选项及保存用户设置
.NET(C#) 如何配置用户首选项及保存用户设置
阅读更多2024-12-14
【最新】北大数字普惠金融指数数据集-省市县（2011-2023年）
郭峰,王靖一,王芳,孔涛,张勋,程志云.测度中国数字普惠金融发展:指数编制与空间特征[J].经济学(季刊),2020,19(04):1401-1418.时间跨度：省级和城市级指数时间跨度为2011-2
阅读更多2024-12-14
GESP202412 四级【Recamán】题解（AC）
a11ak−1−kkakak−1−kak−1k小杨想知道 Recamán 数列的前n项从小到大排序后的结果。手动计算非常困难，小杨希望你能帮他解决这个问题。
阅读更多2024-12-14
IDEA遇到EasyConnect中的网络资源无法访问的问题
版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。原文链接：https://blog.csdn.net/wanshanyu_/article/de
阅读更多2024-12-14
双目摄像头标定方法
此时已经完成标定，左下角为反投影误差，右边为外参可视化。将双目左右目拍的图像上传（左右目最好不少于20张）此时回到主页面，即可看到成功导出。把这些误差大的删除即可。
阅读更多2024-12-14
Servlet、omcat服务器架构与工作原理
Servlet是运行在服务器端的Java程序，它的主要职责之一是接收并处理来自客户端（如浏览器）的HTTP请求。当客户端发送一个请求到服务器时，Servlet可以解析请求中的信息，例如请求的URL路径
阅读更多2024-12-14
Vue生命周期钩子函数：深入解析与实践
作为高级Vue前端开发人员，对Vue组件的生命周期钩子函数有着深刻的理解是至关重要的。生命周期钩子函数是指在Vue组件的创建、更新、销毁等过程中，Vue自动调用的一系列方法。通过这些钩子函数，我们可以
阅读更多2024-12-14
安卓开发--使用android studio发布APP
app发布
阅读更多2024-12-14
数据结构与算法学习笔记----拓扑排序
@ author: 明月清了个风。
阅读更多2024-12-14
python 将数据保存到现有的Excel文件的新工作表
out_file = ‘query.xlsx’df1 = pd.DataFrame(out_data)若直接写入：df1.to_excel(out_file, index=False, sheet_n
阅读更多2024-12-14

Spark架构及运行流程

Spark架构图

Spark运行流程图

相关文章