自学内容网 自学内容网

快来学下载Spark环境(保姆级教学)

一.Spark是什么

        Apache Spark 是一个开源的分布式计算系统,它提供了一个快速且通用的集群计算平台。Spark 支持多种数据处理任务,包括批处理、实时流处理、机器学习和图形处理等。Spark 的设计目标是为了提高大规模数据处理的速度,它通过在内存中存储数据来加快处理速度,同时也支持磁盘存储。

Spark 的一些关键特性包括:

  1. 速度快:Spark 通过在内存中存储数据来加速数据处理,比传统的磁盘基 MapReduce 框架(如 Hadoop)快得多。

  2. 易于使用:Spark 提供了丰富的 API,支持多种编程语言,如 Scala、Java、Python 和 R,使得开发者可以轻松地构建分布式应用程序。

  3. 通用性:Spark 核心提供了高效的数据分布处理能力,而它的生态系统中还包括了 Spark SQL、Spark Streaming、MLlib 和 GraphX 等组件,分别用于处理 SQL 查询、流数据处理、机器学习和图形处理。

  4. 可扩展性:Spark 可以在从一台机器到数千台机器的集群上运行,并且可以轻松地与现有的 Hadoop 数据仓库集成。

  5. 容错性:Spark 能够在节点发生故障时自动重新分配任务,确保数据处理的可靠性。

  6. 与 Hadoop 生态系统集成:Spark 可以与 Hadoop 生态系统中的其他工具(如 HDFS、YARN 和 HBase)无缝集成。

  7. 支持多种数据源:Spark 支持多种数据存储系统,包括 HDFS、Cassandra、HBase、S3 等。

二.Spark官网

        地址:Apache Spark™ - Unified Engine for large-scale data analytics

 在左上角,有download选项,点击,然后选择你想下载的。

我们在红色框中,选择好适合自己的版本(保证Spark版本与Hadoop版本一致)。

                                        会有人问下载的这两个东西干什么?

        我们现在进行的是Spark集群安装部署的过程,下载的是Spark安装包。随后,我们下载第三个Spark压缩包(里面是Spark安装包)、解压Spark安装包、修改配置文件、分发文件、启动Spark集群。

三.安装步骤 

       

1.大家在选择版本的时候,会发现只能选择3.5.3和3.4.3的版本。那么右边会有以往的Spark版本供大家下载。但是好像下载不了,我只下载了新的(选择了3.5.3版本)。

     

 2. 点击第三步下载压缩包,会打开一个网页,然后点击第一个下载链接即可。

       

3.下载后,保存到一个文件夹,然后进行解压。 

四.后续步骤

        由于设计到虚拟机和Hadoop知识,以及相关的软件,时间较长,分三篇文章给大家讲清楚。

关于虚拟机和Hadoop资料,可以后台联系我,我直接压缩包发给你(不想其他作者,只会给你百度网盘链接,下载贼慢。)好谢谢大家,下篇文章见


原文地址:https://blog.csdn.net/dhdjjfhdghh/article/details/142676769

免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!