Spark本地模式安装

🕗 发布于 2024-11-08 08:15 spark 大数据 分布式

Spark本地模式安装

Spark本地模式的安装比较简单，直接启动2.2节安装配置好的CentOS7-201虚拟机，以hadoop账户登录Linux，下载并解压Spark安装文件就可以运行。这种模式可以让我们快速了解Spark。下面具体介绍一下Spark本地模式的安装。

下载Spark安装文件，解压并配置环境变量：

[hadoop@server201 app]$ wget https://archive.apache.org/dist/spark/spark-3.3.1/ spark-3.3.1-bin-hadoop3.tgz
[hadoop@server201 app]$ tar -zxvf spark-3.3.1-bin-hadoop3.tgz -C /app/
[hadoop@server201 app]$ sudo vim /etc/profile
export SPARK_HOME=/app/spark-3.3.1
export PATH=$PATH:$SPARK_HOME/bin
[hadoop@server201 app]$ source /etc/profile

配置完成以后，先通过Spark Shell查看帮助和版本信息，还可以使用--help查看所有选项的帮助信息：

[hadoop@server201 app]$ spark-shell --help
Usage: ./bin/spark-shell [options]
Scala REPL options:
  -I <file>                   preload <file>, enforcing line-by-line 
interpretation
Options:
  --master MASTER_URL      spark://host:port, mesos://host:port, yarn,
                               k8s://https://host:port, or local (Default: 
local[*]).
....

查看Spark的版本，直接使用--version参数即可：

[hadoop@server201 app]$ spark-shell --version
Spark Version 3.3.1
Using Scala version 2.12.17, Java HotSpot(TM) 64-Bit Server VM, 1.8.0_361
Branch HEAD
Compiled by user ubuntu on 2021-02-22T01:33:19Z
Revision 1d550c4e90275ab418b9161925049239227f3dc9
Url https://github.com/apache/spark
Type --help for more information.

使用Spark Shell启动Spark客户端，通过--master指定为local模式，通过local[2]指定使用两核：

$ spark-shell --master local[2]
Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /___/ .__/\_,_/_/ /_/\_\   version 3.3.1
      /_/
Using Scala version 2.12.17 (Java HotSpot(TM) 64-Bit Server VM, Java 1.8.0_361)
Type in expressions to have them evaluated.
Type :help for more information.
scala>

其中显示Spark的版本为3.3.1，Scala的版本为2.12.17。

下面我们运行官方提供的WordCount示例，示例中存在一些方法读者可能尚不明白，不过没有关系，在后面的章节中我们将会详细讲解。

（1）通过sc获取SparkContext对象并加载一个文件到内存中：

scala> val file = sc.textFile("file:///app/hadoop-3.2.3/NOTICE.txt");
val file: org.apache.spark.rdd.RDD[String] = file:///app/hadoop-3.2.3/NOTICE.txt MapPartitionsRDD[1] at textFile at <console>:1

（2）使用一系列的算子对文件对象进行处理：先按空格键和回车键进行分割，然后使用map将数据组合成(key,value)形式，最后使用reduceByKey算子将key合并：

scala> val words = file.flatMap(_.split("\\s+")).map((_,1)). reduceByKey(_+_);
val words: org.apache.spark.rdd.RDD[(String, Int)] = ShuffledRDD[4] at reduceByKey at <console>:1

（3）调用collect方法输出结果：

scala> words.collect
val res0: Array[(String, Int)] = Array((this,2), (is,1), (how,1), (into,2), (something,1), (hive.,2), (file,1), (And,1), (process,1), (you,2), (about,1), (wordcount,1), (import,1), (a,1), (text,1), (be,1), (to,2), (in,1), (tell,1), (for,1), (must,1))

对于上例的运算过程，也可以打开宿主机浏览器访问http://192.168.56.201:4040查看运行效果，如图2-6所示。

图2-6 示例运行效果

从图2-6中可以看出，reduceByKey引发了第二个Stage，从Stage0到Stage1将会引发shuffle，这也是区分转换算子和行动算子的主要依据。

通过上面的示例可以看出，在本地模式下运行Spark不需要事先启动任何的进程；启动Spark Shell后，可以通过SparkContext读取本地文件系统目录下的文件。

（4）操作完成以后，输入“:quit”即可退出：

scala> :quit

[hadoop@server201 app]$

原文地址：https://blog.csdn.net/brucexia/article/details/143584453

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：lua入门教程：lua函数
下一篇：【架构-37】Spark和Flink

常用基础数据库表
LANGUAGE_KEY` varchar(50) DEFAULT NULL COMMENT '国际化语言KEY',`SORT` bigint(5) NOT NULL DEFAULT '0' COMM
阅读更多2024-11-13
在colab中把微调后的大模型合并和量化——仅作参考
前提，在我的云端硬盘创建文件夹colab，然后上传两个压缩文件。解压模型Qwen2.5-1.5B-Instruct.zip。新建colab，修改笔记本设置，然后连接。解压just_train.zip。
阅读更多2024-11-13
LeetCode 二分算法范围内整数的最大得分
LeetCode 二分算法范围内整数的最大得分
阅读更多2024-11-13
shell第三章（条件测试）
注释：用来判断id root是否存在，存在则没有信息录入/dev/null(类似于空洞)，则表示为真，没有此用户，则会用内容录入/dev/null，从而为假。注释：who：用来查看当前有多少用户进行
阅读更多2024-11-13
tartanvo ubuntu 20.04部署
【代码】tartanvo ubuntu 20.04部署。
阅读更多2024-11-13
Ubuntu 的 ROS 操作系统turtlebot3环境搭建
本文介绍了如何在Ubuntu 20.04系统上为TurtleBot3配置ROS Noetic环境。通过详细的步骤，包括下载和安装Ubuntu、安装ROS Noetic、配置依赖包以及设置网络，帮助用户
阅读更多2024-11-13
网络安全-HTML基础
web基础之HTML超文本表示网络安全红队大佬（成长ing）,学习分享
阅读更多2024-11-13
手把手写深度学习(29)：将DDP训练代码改成DeepSpeed
deepspeed已经成为了大模型时代训练模型的常规武器，这篇博客以一个基于DDP的 Stable Diffusion模型训练为例，讲解如何从将DDP训练代码改成DeepSpeed。
阅读更多2024-11-13
人工智能的现状、应用与面临的挑战
近年来，人工智能（AI）在计算能力和算法上的进展使其成为技术变革的引擎。在越来越多的场景中，AI不仅改变了工作方式，也逐渐进入日常生活，成为科技发展的标志性成果。尽管如此，AI在发展的过程中仍然面临技
阅读更多2024-11-13
candence : 原理图中如何设置差分对？
1、选中一个原理图，如下图所示。2、根据需要进行设置。
阅读更多2024-11-13

Spark本地模式安装

Spark本地模式安装

相关文章