Spark集群模式搭建之Yarn模式

🕗 发布于 2024-11-10 02:14 spark 大数据 分布式 yarn 部署

配置第一台服务器bigdata01

我的spark压缩包在/opt/modules 将spark解压到/opt/installs

cd /opt/modules/
tar -zxf spark-3.1.2-bin-hadoop3.2.tgz -C /opt/installs

将解压后的文件重命名，并对设置一个软连接。

cd /opt/installs
mv spark-3.1.2-bin-hadoop3.2 spark-yarn
rm -rf /opt/installs/spark
ln -s /opt/installs/spark-yarn /opt/installs/spark

修改spark-env.sh配置文件

cd /opt/installs/spark/conf
mv spark-env.sh.template spark-env.sh
vim /opt/installs/spark/conf/spark-env.sh
## 22行左右设置JAVA安装目录、HADOOP和YARN配置文件
目录
export JAVA_HOME=/opt/installs/jdk
export HADOOP_CONF_DIR=/opt/installs/hadoop/etc/hadoop
export YARN_CONF_DIR=/opt/installs/hadoop/etc/hadoop
## 历史日志服务器
export SPARK_DAEMON_MEMORY=1g
export SPARK_HISTORY_OPTS="-Dspark.history.fs.logDirectory=hdfs://bigdata01:9820/spark/eventLogs/ -Dspark.history.fs.cleaner.enabled=true"

修改spark-defaults.conf 文件：

cd /opt/installs/spark/conf
mv spark-defaults.conf.template spark-defaults.conf

vim spark-defaults.conf
## 添加内容：
spark.eventLog.enabled           true
spark.eventLog.dir           hdfs://bigdata01:9820/spark/eventLogs
spark.eventLog.compress           true
spark.yarn.historyServer.address bigdata01:18080
spark.yarn.jars           hdfs://bigdata01:9820/spark/jars/*

修改log4j.properties

mv log4j.properties.template log4j.properties

修改级别为WARN,打印日志少一点。

上传spark jar包：

要启动hdfs

        #因为YARN中运行Spark，需要用到Spark的一些类和方法
        #如果不上传到HDFS，每次运行YARN都要上传一次，比较慢
        #所以自己手动上传一次，以后每次YARN直接读取即可

hdfs dfs -mkdir -p /spark/jars/
hdfs dfs -put /opt/installs/spark/jars/* /spark/jars/

修改yarn-site.xml

cd /opt/installs/hadoop/etc/hadoop

检查以下内置少什么，就配什么。
<property>
  <name>yarn.log-aggregation-enable</name>
  <value>true</value>
</property>

<!-- 历史日志在HDFS保存的时间，单位是秒 -->
<!-- 默认的是-1，表示永久保存 -->
<property>
  <name>yarn.log-aggregation.retain-seconds</name>
  <value>604800</value>
</property>

<property>
  <name>yarn.log.server.url</name>
  <value>http://bigdata01:19888/jobhistory/logs</value>
</property>

<!-- 关闭yarn内存检查 -->
<property>
  <name>yarn.nodemanager.pmem-check-enabled</name>
  <value>false</value>
</property>
<property>
  <name>yarn.nodemanager.vmem-check-enabled</name>
  <value>false</value>
</property>

分发yarn-site.xml

xsync.sh 是分发文件脚本详细可以看实用-集群分发文件脚本-CSDN博客

xsync.sh yarn-site.xml

分发spark-yarn

xsync.sh /opt/installs/spark-yarn

超链接也分发一下：
xsync.sh /opt/installs/spark

启动

# 启动yarn
start-yarn.sh
# 启动MR的JobHistoryServer：19888
mapred --daemon start historyserver
# 启动Spark的HistoryServer:18080
/opt/installs/spark/sbin/start-history-server.sh

测试

测试官方给的PI值的计算：

/opt/installs/spark/bin/spark-submit --master yarn /opt/installs/spark/examples/src/main/python/pi.py 10

假如你遇到这个输出，说明资源有限，可以等一等

原文地址：https://blog.csdn.net/weixin_63297999/article/details/143634157

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：什么是网络安全？
下一篇：网易博客旧文----boost学习之json格式的解析

【通俗理解】边际化技巧在概率论中的应用——从公式到实例
边际化技巧 #概率论 #联合概率 #条件概率 #积分计算 #概率分布 #贝叶斯推断。
阅读更多2024-11-25
泷羽sec-----shell编程(完结)
在shell中，与python中一样，像是导入的形式一样，可以加载其他文件中的资源，可以互相调用输入重定向和输出重定向输出重定向是指把前面命令执行的结果重定向到某处输入重定向是指，把文件中的数据重定向
阅读更多2024-11-25
曲谱转换成音频
将曲谱转换成音频是一项复杂的任务，因为它涉及到多个步骤，包括解析曲谱、生成音符的音频数据、以及合成音频文件。
阅读更多2024-11-25
shell完结
学习视频来自B站up主 **泷羽sec** 有兴趣的师傅可以关注一下，如涉及侵权马上删除文章，笔记只是方便各位师傅的学习和探讨，文章所提到的网站以及内容，只做学习交流，其他均与本人以及泷羽sec团队无
阅读更多2024-11-25
Python 将彩色视频转换为黑白视频（MP4-格式可选）
以下是使用 Python 将彩色视频转换为黑白电视风格的示例代码，主要借助了。同时，将代码中的输入和输出视频路径替换为你实际使用的路径。打开输入的彩色视频文件，并获取视频的帧率、宽度和高度等基本信息。
阅读更多2024-11-25
音视频入门基础：MPEG2-TS专题（8）——TS Header中的适配域
TS Header中的适配域
阅读更多2024-11-25
Linux与PowerShell基本操作对应关系
Linux与PowerShell基本操作对应关系
阅读更多2024-11-25
Hadoop进阶原理（HDFS、MR、YARN的原理）
本文主要介绍Hadoop中HDFS、MR、YARN的原理。
阅读更多2024-11-25
【数据结构】【线性表】一文讲完队列（附C语言源码）
队列对于元素本身只需要存储数据和next指针，但对于整个队列，非常重要的是队列的队头和队尾指针，因此在这里我们需要创建两个结构体，一个是元素结点的结构体，记录元素的数据和next指针，另一个是队列的结
阅读更多2024-11-25
近期两篇NeRF/3DGS-based SLAM方案赏析：TS-SLAM and MBA-SLAM
在现有方法中，相机轨迹的估计主要依赖隐式的地图表示约束，缺乏对轨迹平滑性和连续性的直接控制，从而导致局部轨迹不够自然且不利于实际应用（如导航和路径规划）。进一步增强轨迹的物理合理性。：整合了运动模糊感
阅读更多2024-11-25