spark学习笔记

🕗 发布于 2024-09-25 20:05 spark 学习笔记

1.Spark安装

1.1 环境

JDK1.8以上

# 软连接（解耦合）
rm -rf /usr/latest #删除软链接（最后的反斜杠不能删掉）
ln -s /usr/java/jdk1.8.0  /usr/java/latest#创建新的软连接
# 环境变量
1. ~/bash_profile
每个用户自己专属的shell环境，只在用户登录的时候，执行一次，修改后source或重启后生效
2. ~/bashshrc
每个用户自己专属的shell环境，在用户登录的时候或者执行shell脚本的时候，执行一次
3. /etc/profile
所有用户共用的系统变量，修改以后 source或者重启后生效，当用户登录的时候，执行一次

Scala环境
- 安装scala

1.2 Spark安装

- 解压
- 配置环境变量
```
1.JAVA_HOME
2.CLASSPATH # java编译文件class的目录
3.HADOOP_HOME
4.HADOOP_CLASSPATH# hadoop依赖包的路径,hadoop安装目录下的lib
5.SPARK_HOME
6.PATH #所有命令配置到系统变量
PATH=$PATH # 在保留原来的一些配置基础上增加配置；“：”是分隔符
```
- 修改spark配置文件
```
# 1.spark-env.sh
SPARK_MASTER_HOST:主节点ip
SPARK_MASTER_PORT:主节点端口号
SPARK_WORKER_CORES:从节点核数
SPARK_WORKER_MEMORY:cpu分配多少内存，从节点计算所用内存大小
SPARK_DIST_CLASSPATH:配置hadoop的依赖包
# 2.slaves
  从节点的ip地址
# 3.上传spark日志需要的jar包，3个
# 启动
  sbin /start-all.sh
```

2.Spark Standalone架构

2.1 架构组成

1.Driver:运行spark应用程序的驱动，调用main（）函数，创建一个SparkContext对象
2.SaprkContext:SparkContext用来可spark集群进行交互
3.Executor:执行器，在worker上运行的程序，负责计算
4.Task：任务
5.DAG Scheduler:有向无环图，一个DAG中可以分解出多个任务
6.Task Scheduler:任务调度器

2.2运行流程

1.启动Spark集群，worker节点用心跳机制和master进行通信
2.启动Driver，调用main函数，并创建SparkContext对象
3.SparkContext向master申请计算资源，makster会根据worker的心跳来分配worker的资源，并启动worker的Executor进程
4.SparkContext将代码程序解析成DAG结构，并交给DAGScheduler进行角度
5.DAG会在DAG Scheduler中分解为很多的stage（阶段），每个阶段包含多个task
6.stage（多个task组成的组合）会被调度到TaskSheduler中，TaskSchedule将任务分配到worker中，并交给Executor进程进行计算
7.executor会创建一个线程池去执行Task，并将执行结果反馈都SparkContext中，直到所有的task执行完毕
8.SparkContext向mskter注销释放资源

3.Spark on yarn

3.1

3.2

3.3

4.算子

4.1 转换算子

将RDD转为另一个RDD对象，仅仅记住数据集的逻辑操作，不会真正进行计算

map()
返回一个新的分布式数据集（RDD），由原来每个元素通过func转换而来，和python自带的map一样
filter
返回一个新的分布式数据集（RDD）,由经过func返回True的原来元素组成过滤
flatMap
每输入一个元素，都会英东为0到多个输出元素，func返回的是一个序列，不再是单一元素
sample
随机抽取一个子集
union
将两个RDD合并成一个RDD
groupByKey
读取k,v类型数据，按key进行分组
reduceByKey
读取k，v类型数据，按key进行合并
join
将两个数据集进行合并，将key，value中的value进行合并，key相同保留，不相同的去掉
groupBy
根据给定的函数分组
subtract
返回一个集合中不存在另一个的集合的数据
intersection
返回两个RDD的交集
cartesian
返回两个rdd自由交叉组合的结果
combineByKey
将k，v数据形式的数据转为k，c的形式，参数是三个方法
mapPartitions
把原来RDD分区依次通过一个高阶函数进行处理
mapPartitionsWithIndex
得到集合和索引
aggregateByKey
将k,v形式的数据，转为k,c的形式
sortByKey
根据k升序排序
sortBy
指定排序方法
cogroup
根据key进行合并，并进行分组

4.2 执行算子

触发所有转换算子进行RDD的逻辑操作

collect
把所有计算结果当做一个集合返回
count
返回rdd中元素个数
first
取出rdd中第一个元素
take
取出前n个元素
takeordered
取出排序以后的前n个元素
countByKey
统计k,v格式中，k的个数
foreach
遍历rdd中的元素，并依次传入func作为参数
saveAsTextFile
将rdd的执行结果保存到本地文件

5.SparkSQL

6.

7.

8.

原文地址：https://blog.csdn.net/jinming215/article/details/142325538

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：《热血江湖》v23巅峰对决游戏程序（真端+最新官方版本）
下一篇：构建一个高效的数据聚合系统：支持多维度数据汇总

PHP 中，将 JSON 数据与二进制数据之间进行相互转化主要涉及两个步骤：
要将 JSON 数据转换为二进制数据，首先需要将 JSON 数据解析成 PHP 数组或对象，然后使用 PHP 的。函数将二进制字符串转换为 PHP 数组或对象，然后将其编码为 JSON 数据。如果你只
阅读更多2024-09-28
JavaEE: 探索网络世界的核心-IP协议
13位分片偏移: 是分片相对于原始IP报文开始处的偏移.其实就是在表示当前分片在原报文中处在哪个位置.实际偏移的字节数是这个值 * 8 得到的.因此,除了最后一个报文之外,其他报文的长度必须是8的整数
阅读更多2024-09-28
数据库常见概念
PostgreSQL 支持联合索引和聚簇索引，联合索引可以加速多列条件的查询，而聚簇索引控制数据在磁盘上的排列。适当地使用这些索引可以提高查询性能。
阅读更多2024-09-28
BEV学习---LSS4-模型训练
LSS训练测试
阅读更多2024-09-28
SpringCloud第六章(服务保护CircuitBreaker) -2024
CircuitBreaker是断路器的意思，由于原来的SpringCoud的hystrix停更，所以springcloud社区推出了的新断路器，用来进行springcloud的服务降级、限流、熔断由于
阅读更多2024-09-28
ubuntu 开启root
【代码】ubuntu 开启root。
阅读更多2024-09-28
MySQL数据查询（基础）
SELECT语句用于从表中查询数据。可以选择特定的列，也可以选择所有列。：使用表示选择所有列。
阅读更多2024-09-28
区块链可投会议CCF C--FC 2025 截止10.8 附录用率
CCF C：2025：2023年 39 full and 2 short papers selected from 182 submissions.
阅读更多2024-09-28
第1章 C语言概述
4.打开项目后，右击"源文件"并选择"添加"的"新建项"6.在"hello_word"文件下编写代码并点击运行。1.打开
阅读更多2024-09-28
Git 与 GUI 工具
当我们对 Git 的提交、分支已经非常熟悉，可以熟练使用命令操作 Git 后，再使用 GUI 工具，就可以更高效。
阅读更多2024-09-28