Spark 下载版本间的区别

🕗 发布于 2024-05-25 13:47 spark 大数据 分布式

Spark 下载版本间的区别
困惑于Spark官网的Pre-built for Apache Hadoop和Pre-built with user-provided Apache Hadoop的区别。
为何下载个Spark还搞那么多的版本？？？本文以2.1.1版作为测试。

Pre-built for Apache Hadoop
在一台安装了Java的机器上执行以下命令

# 0. 进入测试目录
cd /tmp

# 1. 下载Spark 并解压
wget https://archive.apache.org/dist/spark/spark-2.1.1/spark-2.1.1-bin-hadoop2.7.tgz
tar -xf spark-2.1.1-bin-hadoop2.7.tgz

# 2. 运行Spark
cd /tmp/spark-2.1.1-bin-hadoop2.7 &&\
./bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
./examples/jars/spark-examples_2.11-2.1.1.jar \
100
# 程序是可以正常运行的且可以看到
# 类似于Pi is roughly 3.1408123140812316 的字样

Pre-built with user-provided Apache Hadoop
在一台安装了Java的机器上执行以下命令

# 0. 进入测试目录
cd /tmp

# 1. 下载Spark 并解压
wget https://archive.apache.org/dist/spark/spark-2.1.1/spark-2.1.1-bin-without-hadoop.tgz
tar -xf spark-2.1.1-bin-without-hadoop.tgz

# 2. 运行Spark
cd /tmp/spark-2.1.1-bin-without-hadoop &&\
./bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
./examples/jars/spark-examples_2.11-2.1.1.jar \
100
# 直接报错，java.lang.ClassNotFoundException: org.apache.hadoop.fs.FSDataInputStream

# 3. 与之前的spark-2.1.1-bin-hadoop2.7.tgz 对比以下jar 包
ls spark-2.1.1-bin-hadoop2.7/jars/ > h.txt
ls spark-2.1.1-bin-without-hadoop/jars/ > w.txt
diff -y -W 50 h.txt w.txt  # -y 并排对比，-W 列宽
# 看到右边的w.txt 内容中少了很多Hadoop 的包

# 4. 下载Hadoop 并解压
cd /tmp && wget https://archive.apache.org/dist/hadoop/common/hadoop-2.7.2/hadoop-2.7.2.tar.gz
tar -xf hadoop-2.7.2.tar.gz

# 5. 确认Hadoop 的版本
/tmp/hadoop-2.7.2/bin/hadoop version

# 6. 关联Spark-Without-Hadoop 和Hadoop
cat > /tmp/spark-2.1.1-bin-without-hadoop/conf/spark-env.sh << 'EOF'
#!/usr/bin/env bash
export SPARK_DIST_CLASSPATH=$(/tmp/hadoop-2.7.2/bin/hadoop classpath)
EOF

# 7. 再次运行Spark
cd /tmp/spark-2.1.1-bin-without-hadoop &&\
./bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
./examples/jars/spark-examples_2.11-2.1.1.jar \
100 2>&1 | grep 'Pi is'
# 成功显示Pi is roughly 3.1424395142439514

总结
由上实验可见，[Pre-built with user-provided Apache Hadoop](#Pre-built with user-provided Apache Hadoop)版需要自己修改配置文件去适配Hadoop，实际就是执行时在CLASSPATH中加入Hadoop的Jar包，而[Pre-built for Apache Hadoop](#Pre-built for Apache Hadoop)则是做到了开箱即用，将提前对应的Hadoop Jar包捆绑在其中，同时因为Hadoop 2.6和Hadoop 2.7的HDFS等接口不一样，所以Pre-built for Apache Hadoop分了两个版本。

原文地址：https://blog.csdn.net/wufagang/article/details/138196265

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：Spark RDD 操作实战
下一篇：什么是组态？什么是工业控制中的组态软件？

K-means 算法、层次聚类、密度聚类对鸢尾花（Iris）数据进行聚类
K-Means：适合规则分布的大规模数据，快速聚类。层次聚类：适合小规模数据和需要层次结构的场景，如基因分析或市场细分。DBSCAN：适合处理复杂形状簇和含有噪声的数据，如地理空间数据或异常检测。距离
阅读更多2024-10-18
CI/CD（持续集成与持续交付）流水线
通过这些步骤，你可以配置一个集成了 Jenkins、GitLab Webhook、Nexus 和 RabbitMQ 的完整 CI/CD 流水线。集成 Jenkins、GitLab Webhook、Ne
阅读更多2024-10-18
离大谱！现在用Ai做写真都这么成熟了？AI绘画SD零成本制作影楼级人像写真教程，AI变现副业指南！
首先什么是AI写真，顾名思义的话可以说成是用AI生成写真照（这里我们使用的是开源免费的Stable Diffusion，简称SD），我们先暂且这么理解，后面会从第一性原理来讲明白更深层次的AI写真概念
阅读更多2024-10-18
Qt-系统处理鼠标相关事件(57)
Qt-系统处理鼠标相关事件的使用
阅读更多2024-10-18
Kaggle Python练习：字符串和字典（Exercise: Strings and Dictionaries）
enumerate() 是 Python 的一个内置函数，用于为可迭代对象（如列表、元组或字符串）提供一个自动计数器，同时遍历该对象。它返回一个包含索引和值的迭代器，常用于 for 循环中。（我们鼓励
阅读更多2024-10-18
LeetCode：LCP77.符文储备（排序 Java）
比较简单，排序，然后找出连续的最长值即可。
阅读更多2024-10-18
数据泄露危机：提升文件安全意识的紧迫性
因此,提升文件安全意识,加强数据保护措施,已成为企业管理中不可忽视的重要议题。在数据泄露威胁日益严峻的今天,提升文件安全意识并采取有效的管理措施已成为企业的当务之急。通过构建全面的文件安全管理体系,并
阅读更多2024-10-18
[C++刷题] 基础小知识点(1) 乘方函数pow()
[C++刷题] 基础小知识点(1) 乘方函数 pow pow()
阅读更多2024-10-18
Nature正刊！伯明翰大学和牛津大学等研究人员解锁全球森林树木在减缓气候变化中的新角色！
随着全球气候变化的加剧，甲烷作为一种重要的温室气体，其在大气中的作用日益受到关注。尽管甲烷的排放源和吸收机制已有一定的研究，但树木在甲烷循环中的具体角色仍存在较大不确定性。传统观点认为，湿地和部分高地
阅读更多2024-10-18
【无人机设计与控制】基于极光优化算法PLO的多无人机协同三维路径规划
本文提出了一种基于极光优化算法（PLO）的多无人机协同三维路径规划方法，旨在解决复杂环境中的路径规划问题。通过引入极光优化算法，多个无人机能够在障碍环境中实现协同路径规划，确保飞行路径最短且安全，避免
阅读更多2024-10-18

Spark 下载版本间的区别

相关文章