SparkContext讲解

🕗 发布于 2024-11-21 11:43 hadoop spark

SparkContext讲解

什么是 SparkContext？

SparkContext 是 Spark 应用程序的入口点，是 Spark 的核心组件之一。每个 Spark 应用程序启动时，都会创建一个 SparkContext 对象，它负责与集群管理器（如 YARN、Mesos 或 Spark Standalone）交互，分配资源并管理任务的执行。

简单来说，它是开发 Spark 应用程序的核心接口，用于创建 RDD（弹性分布式数据集），广播变量，累加器等，并控制整个应用的生命周期。

为什么需要 SparkContext？

资源管理： SparkContext 会通过配置与集群交互，分配计算资源。
任务执行：它是 Spark 应用程序调用各种分布式计算函数的入口，例如 textFile、parallelize 等。
作业管理：它协调任务的调度、阶段划分以及失败恢复。

如何创建 SparkContext？

创建 SparkConf：
SparkConf 是用来配置 Spark 应用程序的对象。例如，你可以指定应用程序名称和集群部署模式。
初始化 SparkContext：
使用 SparkConf 初始化 SparkContext。

以下是 Scala 示例代码：

import org.apache.spark.SparkContext
import org.apache.spark.SparkConf

object SimpleApp {
  def main(args: Array[String]): Unit = {
    // 创建 SparkConf 对象并配置应用名称
    val conf = new SparkConf().setAppName("SimpleApp").setMaster("local[*]")
    
    // 创建 SparkContext
    val sc = new SparkContext(conf)
    
    // 示例操作：读取文本文件并计算单词出现次数
    val textFile = sc.textFile("path/to/textfile.txt")
    val counts = textFile.flatMap(line => line.split(" "))
                         .map(word => (word, 1))
                         .reduceByKey(_ + _)
    counts.saveAsTextFile("output/path")
    
    // 停止 SparkContext
    sc.stop()
  }
}

SparkContext 的主要功能

创建 RDD：
RDD 是 Spark 的核心抽象，用于表示分布式数据集。你可以通过 textFile() 或 parallelize() 方法从文件或内存创建 RDD。
广播变量和累加器：
广播变量：用于在各个节点之间高效分发只读变量。
累加器：用于在分布式任务中统计数据。
执行作业：
支持多种分布式操作（如 map、reduce、filter 等），并通过 DAG（有向无环图）调度任务。
监控和调试：
提供了访问 Spark 应用状态的方法，支持日志记录和监听器注册。
资源动态分配：
允许开发者在运行时调整 Executor 的数量和资源分配。

如何关闭 SparkContext？

为什么关闭？
每个 JVM（Java 虚拟机）只能运行一个 SparkContext。如果需要启动一个新的 SparkContext，必须关闭旧的实例。
关闭方法：调用 stop() 方法即可停止 SparkContext。

sc.stop()

关闭后的日志：成功停止 SparkContext 后，会在日志中看到如下信息：

INFO SparkContext: Successfully stopped SparkContext

本地模式和集群模式

本地模式：
适合测试和调试，运行在单机上，无需设置分布式环境。

集群模式：
Spark 在集群环境下运行，可以使用多台机器分布式计算。

SparkContext 的高级功能

任务取消：
通过 cancelJob(jobId) 或 cancelStage(stageId) 方法取消作业或阶段。
持久性 RDD：
通过 getPersistentRDDs() 方法访问已缓存的 RDD。
动态资源分配：
使用 requestExecutors() 和 killExecutors() 等方法动态调整集群资源。
闭包清理：
在执行 Action 时，Spark 会自动清理无用的变量和引用。

示例：WordCount 程序

以下是一个简单的单词计数应用程序，展示如何使用 SparkContext。

import org.apache.spark.SparkContext
import org.apache.spark.SparkConf

object Wordcount {
  def main(args: Array[String]) {
    val conf = new SparkConf().setAppName("WordCount").setMaster("local[*]")
    val sc = new SparkContext(conf)

    val rawData = sc.textFile("input.txt")
    val words = rawData.flatMap(line => line.split(" "))
    val wordCount = words.map(word => (word, 1)).reduceByKey(_ + _)
    wordCount.saveAsTextFile("output")

    sc.stop()
  }
}

总结

SparkContext 是 Spark 应用的核心对象，负责资源管理和任务执行。
通过 SparkConf 配置和创建 SparkContext。
提供了广泛的 API 支持分布式计算，同时允许对资源和任务进行动态管理。
适合初学者从简单的本地模式开始，逐步掌握集群模式和高级功能。

原文地址：https://blog.csdn.net/qq_42952637/article/details/143863389

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：ssm150旅游网站的设计与实现+jsp(论文+源码)_kaic
下一篇：消息队列&Kafka

MySQL系列之身份鉴别（安全）
MySQL的身份鉴别是数据库安全的核心命题之一。在每日“拧螺丝”的工作中，我们的开发人员可能会忽略这个问题。正因如此，博主以这个契机，向大家做一次专题介绍。看过此文，相信你能够“上应付得了等保，下对得
阅读更多2024-11-21
uni app下开发AI运动小程序解决方案
开发者可以根据实际需求，自由选择并调用相应的接口，以实现丰富的功能，如通过相机抽帧控制来精确捕捉画面，利用人体识别技术来检测并跟踪人体动作，或是通过姿态识别与相似度比较功能来分析并比较用户的体态特征，
阅读更多2024-11-21
AI时代，百度的三大主义
这样的表态，在当时的环境下需要极大的勇气，事后证明，这其实就是全球主流的AI方向。目前在百度智能云的千帆大模型平台上，已经累计精调了3.3万个大模型，开发出了77万个企业级应用，百度智能云已经拥有中国
阅读更多2024-11-21
nwjs崩溃复现、 nwjs-控制台手动操纵、nwjs崩溃调用栈解码、剪切板例子中、nwjs混合模式、xdotool显示nwjs所有进程窗口列表
nwjs崩溃调用栈解码
阅读更多2024-11-21
【设计模式】【创建型模式（Creational Patterns）】之单例模式
这些实现都遵循了单例模式的基本原则：确保一个类只有一个实例，并提供一个全局访问点。每种语言的实现方式有所不同，但核心思想是一致的。
阅读更多2024-11-21
C++篇之多态
类成员函数前⾯加virtual修饰，那么这个成员函数被称为虚函数。注意⾮成员函数不能加virtual修饰。
阅读更多2024-11-21
java 设计模式模板方法模式
java 设计模式，模板方法模式，springboot，SpringCloudAlibaba，Springboot+Vue
阅读更多2024-11-21
Vue前端开发子组件向父组件传参
在父组件中，如果需要获取子组件中的数据，有两种方式，一种是在子组件中自定义事件，父组件绑定该事件，当触发自定义事件时，向父组件传入参数；另一种是先通过ref属性给子组件命名，然后在父组件中就可以调用$
阅读更多2024-11-21
【STM32】时钟系统
在我们学习STM32之前，我们需要先了解STM32系列芯片的时钟系统，这个是我们学习这个芯片的基础。为什么时钟系统这么重要呢？举个例子，如果把STM32比作我们的整个人体，那么时钟就是维持我们人体正常
阅读更多2024-11-21
华为云鸿蒙应用入门级开发者认证考试题库(理论题和实验题）
华为云鸿蒙应用入门级开发者认证题库，包含了大部分HCCDA考试认证题目
阅读更多2024-11-21

SparkContext讲解