快来学下载Spark环境（保姆级教学）

🕗 发布于 2024-10-04 02:07 spark 大数据 分布式

一.Spark是什么

Apache Spark 是一个开源的分布式计算系统，它提供了一个快速且通用的集群计算平台。Spark 支持多种数据处理任务，包括批处理、实时流处理、机器学习和图形处理等。Spark 的设计目标是为了提高大规模数据处理的速度，它通过在内存中存储数据来加快处理速度，同时也支持磁盘存储。

Spark 的一些关键特性包括：

速度快：Spark 通过在内存中存储数据来加速数据处理，比传统的磁盘基 MapReduce 框架（如 Hadoop）快得多。
易于使用：Spark 提供了丰富的 API，支持多种编程语言，如 Scala、Java、Python 和 R，使得开发者可以轻松地构建分布式应用程序。
通用性：Spark 核心提供了高效的数据分布处理能力，而它的生态系统中还包括了 Spark SQL、Spark Streaming、MLlib 和 GraphX 等组件，分别用于处理 SQL 查询、流数据处理、机器学习和图形处理。
可扩展性：Spark 可以在从一台机器到数千台机器的集群上运行，并且可以轻松地与现有的 Hadoop 数据仓库集成。
容错性：Spark 能够在节点发生故障时自动重新分配任务，确保数据处理的可靠性。
与 Hadoop 生态系统集成：Spark 可以与 Hadoop 生态系统中的其他工具（如 HDFS、YARN 和 HBase）无缝集成。
支持多种数据源：Spark 支持多种数据存储系统，包括 HDFS、Cassandra、HBase、S3 等。

二.Spark官网

地址：Apache Spark™ - Unified Engine for large-scale data analytics

在左上角，有download选项，点击，然后选择你想下载的。

我们在红色框中，选择好适合自己的版本（保证Spark版本与Hadoop版本一致）。

会有人问下载的这两个东西干什么？

我们现在进行的是Spark集群安装部署的过程，下载的是Spark安装包。随后，我们下载第三个Spark压缩包（里面是Spark安装包）、解压Spark安装包、修改配置文件、分发文件、启动Spark集群。

三.安装步骤

1.大家在选择版本的时候，会发现只能选择3.5.3和3.4.3的版本。那么右边会有以往的Spark版本供大家下载。但是好像下载不了，我只下载了新的（选择了3.5.3版本）。

2. 点击第三步下载压缩包，会打开一个网页，然后点击第一个下载链接即可。

3.下载后，保存到一个文件夹，然后进行解压。

四.后续步骤

由于设计到虚拟机和Hadoop知识，以及相关的软件，时间较长，分三篇文章给大家讲清楚。

关于虚拟机和Hadoop资料，可以后台联系我，我直接压缩包发给你（不想其他作者，只会给你百度网盘链接，下载贼慢。）好谢谢大家，下篇文章见

原文地址：https://blog.csdn.net/dhdjjfhdghh/article/details/142676769

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：SOMEIP_ETS_148: SD_Send_triggerEventUINT8Array_Eventgroup_2
下一篇：不带头结点单链表逆置递归实现---未验证

PASCAL VOC 2012数据集 20类物体，这些物体包括人、动物（如猫、狗、鸟等）、交通工具（如车、船、飞机等）以及家具（如椅子、桌子、沙发等）。
PASCAL VOC 2012数据集 20类物体，这些物体包括人、动物（如猫、狗、鸟等）、交通工具（如车、船、飞机等）以及家具（如椅子、桌子、沙发等）。
阅读更多2024-10-05
Excel基础：电子表格Excel的使用技巧合集
一、内容1.表格下拉框选择内容
阅读更多2024-10-05
Spring Boot中线程池使用
Spring Boot中线程池使用
阅读更多2024-10-05
数据结构实验1
【代码】数据结构实验1。
阅读更多2024-10-05
10.1 10.3 图DFS 中等 207 Course Schedule 210 Course Schedule Ⅱ
207 210 考察点：选择合适数据结构创建图；使用DFS判断图中是否有环；找简单路径
阅读更多2024-10-05
忘记 MySQL 密码怎么办：破解 root 账户密码
重置 MySQL 数据库的 root 账户密码
阅读更多2024-10-05
【AIGC】VoiceControl for ChatGPT指南：轻松开启ChatGPT语音对话模式
我们可以看到，VoiceControl for ChatGPT插件的确是一个非常实用的工具，尤其适合那些想要提高与ChatGPT交互效率的人。通过语音输入的方式，它不仅让对话更自然，还节省了打字的时间
阅读更多2024-10-05
ubuntu18.04运行OpenPCDet出现的问题
在编译成功OpenPCDet的源代码之后，发现在运行demo时候，依旧出现了很多问题，在此对出现的问题进行总结记录。
阅读更多2024-10-05
C#中虚函数和抽象函数的概念
抽象方法是在基类中声明，但没有提供具体的实现，而是在派生类中实现。它们用于强制派生类提供特定的方法实现。virtual用于在基类中修饰方法，允许在派生类中使用override关键字重写方法。virtu
阅读更多2024-10-05
C++并发编程实战—单例模式与线程池实现
定义：线程池是一种设计模式，它预先创建并维护一定数量的线程，这些线程可以重复执行多个任务。当有任务需要执行时，线程池会选择一个可用的线程来执行任务，任务执行完毕后，线程会返回线程池，等待下一个任务的到
阅读更多2024-10-05

快来学下载Spark环境（保姆级教学）

一.Spark是什么

二.Spark官网

三.安装步骤

四.后续步骤

相关文章