SparkCore中的常见问题

🕗 发布于 2024-11-06 06:00 spark

1、rdd五大特性

特性一：每个RDD都由一系列的分区构成

特性二：RDD的转换操作本质上是对RDD所有分区的并行转换

特性三：每个RDD都会保存与其他RDD之间的依赖关系：血链机制或者血脉机制

特性四：可选的，如果是二元组【KV】类型的RDD，在Shuffle过程中可以自定义分区器。

特性五：可选的，Spark程序运行时，Task的分配可以指定实现本地优先计算：最优计算位置.

2、spark启动yarn需要启动哪些服务

# 启动yarn
start-yarn.sh
# 启动MR的JobHistoryServer：19888
mapred --daemon start historyserver
# 启动Spark的HistoryServer:18080
/opt/installs/spark/sbin/start-history-server.sh

3、spark中哪些是shuffle算子，哪些是触发算子，哪些是转换算子

count foreach saveAsTextFile first take 
  collect  reduce top takeOrdered 
  collectAsMap foreachParition   max min mean sum  checkpoint

map flatMap filter union distinct groupByKey sortByKey sortBy reduceByKey 
 repartition coalesce keys values mapValues
 join fullOuterJoin leftOuterJoin rightOuterJoin
 mapPartitions  cache persist

 groupByKey sortByKey sortBy reduceByKey repartition
   coalesce(根据情况)  join（ fullOuterJoin / leftOuterJoin / rightOuterJoin）

4、创建rdd的两种方式

方式一：并行化一个已存在的集合

方式二：读取外部共享存储系统

5、宽依赖算子

窄依赖：Narrow Dependencies

定义：父RDD的一个分区的数据只给了子RDD的一个分区【不用经过Shuffle】

特点：一对一或者多对一，不经过Shuffle，性能相对较快，但无法实现全局分区、排序、分组等

一个Stage内部的计算都是窄依赖的过程，全部在内存中完成。

宽依赖：Wide/Shuffle Dependencies

定义：父RDD的一个分区的数据给了子RDD的多个分区【需要调用Shuffle的分区器来实现】

特点：一对多，必须经过Shuffle，性能相对较慢，可以实现全局分区、排序、分组等

Spark的job中按照宽依赖来划分Stage

本质：只是一种标记，标记两个RDD之间的依赖关系

3、为什么要标记宽窄关系？

1）提高数据容错的性能，避免分区数据丢失时，需要重新构建整个RDD

2）提高数据转换的性能，将连续窄依赖操作使用同一个Task都放在内存中直接转换

6、容错机制

persist持久化机制

checkpoint检查点机制

7、spark的shuffle过程

1）Hash Based Shuffle

特点：没有排序，只分区，每个Task按照ReduceTask个数生成多个文件

2) Hash Based Shuffle 【优化后的，File Consolidation机制】

3) Sort Based Shuffle [目前最新的]

Shuffle Write：类似于MR中的Map端Shuffle，但是Spark的 Shuffle Write有3种，会根据情况自动判断选择哪种Shuffle Write

第一种：SortShuffleWriter

第二种：BypassMergeSortShuffleWriter

第三种：UnsafeShuffleWriter

Shuffle Read：类似于MR中的Reduce端Shuffle，但是 Spark的Shuffle Read功能由算子来决定，不同算子经过的过程不一样的。

原文地址：https://blog.csdn.net/weixin_64860388/article/details/143524807

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：PySpark任务提交
下一篇：关于wordpress instagram feed 插件（现更名为Smash Balloon Social Photo Feed）

UML的另一个主角——用例图
顺序图和类图已经出过单集，本贴要分享的是用例图。类图顺序图用例图用于描述一个系统的基本工作流程。
阅读更多2024-11-06
前后端分离，Jackson，Long精度丢失
这是因为JavaScript中的数字一律采用IEEE-754标准的64位浮点数表示，这种格式可以很好地处理大多数数字运算，但对于非常大的整数（超出2^53 - 1），就可能出现精度损失，这就非常的恶心
阅读更多2024-11-06
RabbitMQ设置消息过期时间
RabbitMQ设置消息过期时间
阅读更多2024-11-06
vue3 defineExpose 原理
编译之后变成__expose({ onClose }); 执行代码
阅读更多2024-11-06
vue使用方法创建组件
【代码】vue使用方法创建组件。
阅读更多2024-11-06
Java 代理模式详解
姨妈在这里就可以看作是代理你的代理对象，代理的行为（方法）是接收和回复新郎的提问。涵盖了静态代理和动态代理实战、静态代理和动态代理的区别、JDK 动态代理和 Cglib 动态代理区别等内容。，例如
阅读更多2024-11-06
oracle使用CTE递归分解字符串
给定一个不定长度字符串并且以，分割例如 ‘1，2，3，4’ 使用sql查询返回1，2，3，4四行如果‘1，2’ 则返回 1，2 两行使用sql实现。
阅读更多2024-11-06
代码随想录 | Day36 | 动态规划：整数拆分&不同的二叉搜索树
1.思考回溯法（深度优先遍历）怎么写注意要画树形结构图2.转成记忆化搜索看哪些地方是重复计算的，怎么用记忆化搜索给顶替掉这些重复计算3.把记忆化搜索翻译成动态规划基本就是1:1转换。
阅读更多2024-11-06
stm32 挂死定位（死循环）
当进入中断时，CPU依次将xPSR,PC(Return Address),LR,R12,R3-R0压入堆栈。1，调式程序时先看初始化和轮询点灯流程，如果灯没有闪烁则表明程序进入了死循环。LR在异常后通
阅读更多2024-11-06
深度学习—Matplotlib绘图库基础
本篇文章介绍了matplotlib绘图库的基本操作，创建窗口，根据数据绘制图像的过程，常用的就是线型图plot和直方图hist，作为技术人员确实暂时不用花太多心思在图片展示的美观性上，否则多少有点舍本
阅读更多2024-11-06