Spark常见面试题-部分待更新

🕗 发布于 2025-01-16 08:51 spark 大数据 分布式

1. 简述hadoop 和 spark 的不同点（为什么spark更快）
Hadoop是一个分布式管理、存储、计算的生态系统，包括HDFS（分布式文件系统）、MapReduce（计算引擎）和YARN（资源调度器）。Hadoop的作业称为Job，每个Job包含多个Map Task和Reduce Task，这些Task在各自的进程中运行，当Task结束时，进程也会随之结束‌
Spark是一个基于内存计算的框架，使用RDD（弹性分布式数据集）进行数据处理。Spark的任务称为Application，一个Application包含多个Job，每个Job可以进一步划分为多个Stage，每个Stage包含多个Task。Spark的Task可以在内存中执行，避免了频繁的磁盘读写操作，从而提高了处理速度‌
Hadoop使用MapReduce模型进行数据处理，数据需要在磁盘上进行读写操作，这导致了较高的I/O开销，从而影响了处理速度‌
Spark采用内存计算技术，数据存储在内存中，减少了磁盘I/O操作，显著提高了处理速度。Spark的处理速度通常是Hadoop的10到100倍‌

2. 谈谈你对RDD的理解
弹性分布式数据集（Resilient Distributed Dataset, RDD）是Apache Spark中的核心概念，它是一个容错的、并行的数据结构，可以让开发者以弹性的方式进行数据计算。

RDD具有以下特性：
分布式：RDD的数据可以分布在集群中的不同节点上。
弹性：RDD在执行过程中可以根据需要重新分布数据集。
不可变：RDD是只读的，要改变RDD，只能创建新的RDD。
缓存：可以把RDD缓存起来，在计算中再次使用。
容错：RDD的每个阶段都会进行校验和，如果在计算过程中有数据丢失，可以通过父RDD重建。
3. 简述spark的shuffle过程
Shuffle 过程本质上都是将 Map 端获得的数据使用分区器进行划分，并将数据发送给对应的 Reducer 的过程。

前一个stage的ShuffleMapTask进行shuffle write，把数据存储在blockManager上面，并且把数据元信息上报到dirver的mapOutTarck组件中，下一个stage根据数据位置源信息，进行shuffle read，拉取上一个stage的输出数据
1、基于哈希的shuffle操作：基于哈希的shuffle操作的原理在于将Mapper（stage）生成的中间数据，按照Reduce的数量（Reduce任务的数量取决于当前stage的RDD的分区数量）进行切分。切分成多个bucket，每个bucket对应一个文件。当reduce任务运行时，会根据任务的编号和所依赖的mapper编号远程或者从本地取得相应的bucket作为reduce任务的输入数据进行处理（）

2、基于排序的shuffle操作：基于哈希的shuffle操作会产生很多文件，这对文件系统来说是一个非诚大的负担，而且在总数据量不大而文件特别多的情况下，随机读写会严重降低I/O性能。大量文件的带来的问题还包括缓存。缓存所占用的内存过多是一笔很大的开销。每个shuffle map task只会产生一个索引文件，以及这个文件的索引，其中索引中记载着，这个文件的那些数据是被下游的那些reduce task（stage）任务使用（）

4. spark的作业运行流程是怎么样的
Spark应用程序以进程集合为单位在分布式集群上运行，通过driver程序的main方法创建的SparkContext对象与集群交互。

1、Spark通过SparkContext向Cluster manager(资源管理器)申请所需执行的资源（cpu、内存等）
2、Cluster manager分配应用程序执行需要的资源，在Worker节点上创建Executor
3、SparkContext 将程序代码（jar包或者python文件）和Task任务发送给Executor执行，并收集结果给Driver。

spark driver的作用，以及client模式和cluster模式的区别

6. 你知道Application、Job、Stage、Task他们之间的关系吗
1、一个应用程序对应多个job，一个job会有多个stage阶段，一个stage会有多个task
2、一个应用程序中有多少个行动算子就会创建多少个job作业；一个job作业中一个宽依赖会划分一个stage阶段；同一个stage阶段中最后一个算子有多少个分区这个stage就有多少个task，因为窄依赖每个分区任务是并行执行的，没有必要每个算子的一个分区启动一个task任务。如图所示阶段2最后一个map算子是对应5个分区，reducebykey是3个分区，总共是8个task任务。
3、当一个rdd的数据需要打乱重组然后分配到下一个rdd时就产生shuffle阶段，宽依赖就是以shuffle进行划分的。

7. Spark常见的算子介绍一下（10个以上）
Transformation算子
Transformation算子用于转换RDD，生成新的RDD，但不会立即执行计算。它们通常用于中间数据处理。

‌map‌：对RDD中的每个元素应用一个函数，返回一个新的RDD。
‌flatMap‌：将函数应用于RDD中的每个元素，并将结果扁平化成一个新的RDD。与map的区别在于flatMap可以处理集合类型的元素。
‌filter‌：过滤RDD，保留满足条件的元素，返回一个新的RDD。
‌union‌：合并两个或多个RDDs。
‌groupBy‌：根据给定的函数将元素分组，返回一个键值对RDD。
‌sortBy‌：根据给定的函数对RDD进行排序，返回一个新的有序RDD。
‌repartition‌：重新分区RDD，可以增加或减少分区数。
‌coalesce‌：减少RDD的分区数，主要用于优化性能。
Action算子
Action算子用于触发计算，并返回一个值或执行某些操作，但不返回新的RDD。

‌count‌：统计RDD中的元素个数。
‌collect‌：将RDD中的元素收集到Driver，并返回一个数组。
‌first‌：返回RDD中的第一个元素。
‌take‌：返回RDD中的前n个元素。
‌reduce‌：对RDD中的元素进行聚合操作。
‌saveAsTextFile‌：将RDD保存为文本文件。
‌foreach‌：对RDD中的每个元素应用一个函数，通常用于调试或数据导出。
8. 简述map和mapPartitions的区别
map算子‌：对RDD中的每个元素进行操作，每次传入一个元素到定义的函数中，返回处理后的元素。map算子的主要目的是将数据源中的数据进行转换和改变，不会减少或增多数据‌
‌mapPartitions算子‌：对RDD中的每个分区进行操作，每次传入一个分区的迭代器到定义的函数中，返回处理后的迭代器。mapPartitions算子可以增加或减少数据，因为它处理的是一批数据而不是单个元素‌
9. 你知道重分区的相关算子吗
repartition(numPartitions: Int): RDD[T]：这个算子会导致一个大的shuffle操作，它会根据一个hashpartitioner的方式来重新分区数据。
coalesce(numPartitions: Int, shuffle: Boolean = false): RDD[T]：这个算子用来减少RDD的分区数量，如果shuffle设置为false，那么只有当新的分区数大于原来的分区数的时候，这个操作才会减少计算资源。如果shuffle设置为true，那么这个操作会进行shuffle，不论新的分区数是否大于原来的分区数。
10. spark目前支持哪几种分区策略
‌HashPartitioner‌：采用哈希的方式对<Key,Value>键值对数据进行分区。其数据分区规则为partitionId = Key.hashCode % numPartitions，其中partitionId代表该Key对应的键值对数据应当分配到的Partition标识，Key.hashCode表示该Key的哈希值，numPartitions表示包含的Partition个数‌
‌RangePartitioner‌：将一定范围的数据映射到一个分区中。这种分区策略适用于需要对数据进行范围查询的场景‌
‌CustomPartitioner‌：用户可以根据具体需求自定义分区器，以满足特定的分区要求‌

简述groupByKey和reduceByKey的区别
简述reduceByKey、foldByKey、aggregateByKey、combineByKey 的区别
13. 宽依赖和窄依赖之间的区别

14. spark为什么需要RDD持久化，持久化的方式有哪几种，他们之间的区别是什么
Spark中的RDD（弹性分布式数据集）是懒加载的，只有在遇到行动算子（如collect、count等）时才会从头开始计算。如果同一个RDD被多次使用，每次都需要重新计算，这会显著增加计算开销。为了避免这种情况，可以将RDD持久化到内存或磁盘中，以便在后续操作中直接使用持久化的数据，从而避免重复计算，提高计算效率‌

cache‌

这是persist的一种简化方式，作用是将RDD缓存到内存中，以便后续快速访问。cache操作是懒执行的，即执行action算子时才会触发‌

‌persist‌

提供了不同的存储级别，包括仅磁盘、仅内存、内存或磁盘、内存或磁盘+副本数、序列化后存入内存或磁盘等。用户可以根据不同的应用场景进行选择‌

‌checkpoint‌

将数据永久保存，用于减少长血缘关系带来的容错成本。checkpoint不仅保存了数据，还保存了计算该数据的算子操作。当需要恢复数据时，可以通过这些操作重新计算，而不仅仅是依赖于原始数据。checkpoint在作业完成后仍然保留，可以用于后续的计算任务‌

简述spark的容错机制
除了RDD，你还了解spark的其他数据结构吗
spark调优
谈一谈RDD,DataFrame,DataSet的区别

19. Hive on Spark与SparkSql的区别
‌Spark SQL‌：主要用于结构化数据处理和对Spark数据执行类SQL的查询。它通过SQL解析引擎解析SQL语句，最终转换为Spark RDD的方式去执行。Spark SQL的目的是为懂得数据库管理系统（DBMS）但不熟悉Spark的用户准备的‌

‌Hive on Spark‌：Hive作为数据仓库，负责一部分的解析和优化计算，而Spark作为Hive的底层执行引擎之一，负责一部分的计算。Hive on Spark结合了Hive的SQL处理能力和Spark的计算性能，提供了高效的数据处理能力‌

sparksql的三种join实现
简单介绍下sparkstreaming
你知道sparkstreaming的背压机制吗
SparkStreaming有哪几种方式消费Kafka中的数据，它们之间的区别是什么

原文地址：https://blog.csdn.net/little_TianYe/article/details/144990610

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：ASP.NET Core 中，认证（Authentication）和授权（Authorization）
下一篇：实战web 渗透测试教学课程

宿舍管理项目（大一C/C++实践）ODBC连接
ODBC连接数据库项目实践——宿舍管理系统（大一版C/C++）
阅读更多2025-01-17
基于单片机的智能楼宇门禁系统的设计
摘要:楼宇门禁系统是应用非常普遍的一种门禁控制设备，其可以方便的进行人流的控制，防止陌生人员进入，以实现对小区，楼宇等居住环境的保护。本次基于单片机的智能楼宇门禁系统的设计，在功能上其具有按键密码输入
阅读更多2025-01-17
《Java核心技术II》实现服务器
简单服务器程序中，只是读取客户端输入，每次读一行，并回送这一行。out.println("你好！打开cmd,chcp 65001,更改代码为UTF-8。out.println("回
阅读更多2025-01-17
C#中的Span
C#中的Span
阅读更多2025-01-17
【excel】VBA股票数据获取（搜狐股票）
excel股票数据下载器。
阅读更多2025-01-17
【2024年华为OD机试】 (A卷,200分)- 不含101的数（Java & JS & Python&C/C++）
华为OD（Outsourcing Developer，外包开发工程师）是华为针对软件开发工程师岗位的一种招聘形式，主要包括笔试、技术面试以及综合面试等环节。尤其在笔试部分，算法题的机试至关重要。
阅读更多2025-01-17
Spring Boot 应用开发中的核心注解及扩展（包含自动配置源码追踪）
本文将带大家深入了解 Spring Boot 开发中的核心注解及其扩展功能。同时，文末附有自动配置相关的源码追踪与解析，对这一机制感兴趣的读者可以参考。
阅读更多2025-01-17
shader 实践的宝藏网站
shader 实践的宝藏网站
阅读更多2025-01-17
免费使用 Adobe 和 JetBrains 软件的秘密
免费使用 Adobe 和 JetBrains 软件的秘密
阅读更多2025-01-17
Qt——QTableWidget 限制单元格输入范围的方法（正则表达式输入校验法、自定义代理类MyItemDelegrate）
QTableWidget 表格控件可以用来做成输入控件，在需要对每个单元格进行输入限制时该怎么做呢？比如限制单元格输入的数字范围是0-100，输入时间格式yyyy/MM/dd。
阅读更多2025-01-17

Spark常见面试题-部分待更新

相关文章