快速了解RDD的创建与处理过程

🕗 发布于 2024-11-21 06:13 spark

本节主要介绍RDD的创建及其处理过程。本节所有实战均在Spark Shell命令行方式下进行。

Spark Shell是Spark提供的一个交互式分析工具，用于快速开发和调试Spark应用程序。它是一个集成了Scala解释器的交互式环境，允许用户直接在Shell中执行Spark操作，无须编写完整的Spark应用程序。

Spark Shell提供了许多内置的函数和变量，例如SparkContext和SparkSession对象，这些对象在启动Spark Shell时会自动创建。用户可以直接使用这些对象来访问Spark的功能，例如读取数据、转换数据、执行计算等。

要启动Spark Shell，首先打开终端或命令行界面，并导航到Spark的安装目录；然后，在终端中输入以下命令：

./bin/spark-shell

该命令将启动一个交互式的Scala环境，并自动创建一个SparkContext和SparkSession对象。这样就可以在Shell中输入Scala代码来执行Spark操作。

除了基本的启动方式外，还可以通过指定一些参数来定制Spark Shell的行为。例如，可以使用--master参数来指定Spark集群的地址，使用--executor-memory和--total-executor-cores参数来指定每个执行器的内存和整个集群使用的CPU核数。这些参数可以更好地控制Spark应用程序在集群上的执行。

需要注意的是，如果启动Spark Shell时没有指定master地址，那么Spark Shell将默认启动本地模式，即仅在本机上启动一个进程，而不与集群建立联系。这对于简单的测试和调试非常有用。本节采用本地模式启动。

3.4.1 RDD的创建

Spark可以从Hadoop支持的任何存储源中加载数据去创建RDD，包括本地文件系统和HDFS等文件系统。下面通过Spark中的SparkContext对象调用textFile()方法来加载数据并创建RDD。

（1）从文件系统中加载数据并创建RDD：

scala> val test=sc.textFile("file:///export/data/test.txt")

test: org.apache.spark.rdd.RDD[String]=file:///export/data/test.txt MapPartitionsRDD[1] at textFile  at <console>:24

（2）从HDFS中加载数据并创建RDD：

scala> val testRDD=sc.textFile("/data/test.txt")

testRDD:org.apache.spark.rdd.RDD[String]=/data/test.txt MapPartitionsRDD[1] at textFile at  <console>:24

Spark还可以通过并行集合创建RDD，即在一个已经存在的集合数组上，通过SparkContext对象调用parallelize()方法来创建RDD：

scala> val array=Array(1,2,3,4,5)

array: Array[Int]=Array(1,2,3,4,5)

scala> val arrRDD=sc.parallelize(array)

arrRDD: org.apache.spark.rdd.RDD[Int]=ParallelcollectionRDD[6] at parallelize at <console>:26

3.4.2 RDD的处理过程

Spark用Scala语言实现了RDD的API，开发者可以通过调用这些API对RDD进行操作。RDD每完成一次转换操作，都会生成新的RDD，以供下一次“转换”操作使用。当最后一个RDD遇到“行动”操作时，Spark会根据所有转换操作的依赖关系进行计算，并将最终结果输出到外部数据源，如HDFS、数据库或文件系统等。如果在处理过程中需要复用中间数据结果，可以使用缓存机制将数据暂存于内存中，以提高后续操作的效率。整个处理过程如图3-5所示。

图3-5 RDD的处理过程

原文地址：https://blog.csdn.net/brucexia/article/details/143901510

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：Linux-Apache静态资源
下一篇：【数据结构OJ】【图论】货币套汇（图路径）

MySQL系列之身份鉴别（安全）
MySQL的身份鉴别是数据库安全的核心命题之一。在每日“拧螺丝”的工作中，我们的开发人员可能会忽略这个问题。正因如此，博主以这个契机，向大家做一次专题介绍。看过此文，相信你能够“上应付得了等保，下对得
阅读更多2024-11-21
uni app下开发AI运动小程序解决方案
开发者可以根据实际需求，自由选择并调用相应的接口，以实现丰富的功能，如通过相机抽帧控制来精确捕捉画面，利用人体识别技术来检测并跟踪人体动作，或是通过姿态识别与相似度比较功能来分析并比较用户的体态特征，
阅读更多2024-11-21
AI时代，百度的三大主义
这样的表态，在当时的环境下需要极大的勇气，事后证明，这其实就是全球主流的AI方向。目前在百度智能云的千帆大模型平台上，已经累计精调了3.3万个大模型，开发出了77万个企业级应用，百度智能云已经拥有中国
阅读更多2024-11-21
nwjs崩溃复现、 nwjs-控制台手动操纵、nwjs崩溃调用栈解码、剪切板例子中、nwjs混合模式、xdotool显示nwjs所有进程窗口列表
nwjs崩溃调用栈解码
阅读更多2024-11-21
【设计模式】【创建型模式（Creational Patterns）】之单例模式
这些实现都遵循了单例模式的基本原则：确保一个类只有一个实例，并提供一个全局访问点。每种语言的实现方式有所不同，但核心思想是一致的。
阅读更多2024-11-21
C++篇之多态
类成员函数前⾯加virtual修饰，那么这个成员函数被称为虚函数。注意⾮成员函数不能加virtual修饰。
阅读更多2024-11-21
java 设计模式模板方法模式
java 设计模式，模板方法模式，springboot，SpringCloudAlibaba，Springboot+Vue
阅读更多2024-11-21
Vue前端开发子组件向父组件传参
在父组件中，如果需要获取子组件中的数据，有两种方式，一种是在子组件中自定义事件，父组件绑定该事件，当触发自定义事件时，向父组件传入参数；另一种是先通过ref属性给子组件命名，然后在父组件中就可以调用$
阅读更多2024-11-21
【STM32】时钟系统
在我们学习STM32之前，我们需要先了解STM32系列芯片的时钟系统，这个是我们学习这个芯片的基础。为什么时钟系统这么重要呢？举个例子，如果把STM32比作我们的整个人体，那么时钟就是维持我们人体正常
阅读更多2024-11-21
华为云鸿蒙应用入门级开发者认证考试题库(理论题和实验题）
华为云鸿蒙应用入门级开发者认证题库，包含了大部分HCCDA考试认证题目
阅读更多2024-11-21

快速了解RDD的创建与处理过程

3.4.1 RDD的创建

3.4.2 RDD的处理过程

相关文章