大数据常见面试题及答案（Linux、Zookeeper、Hadoop、Hive）

在进行文件合并过程中， MapTask以分区为单位进行合并。对于某个分区，它将采用多轮递归合并的方式。每轮合并io.sort.factor（默认100）个文件，并将产生的文件重新加入待合并列表中，对文件排序后，重复以上过程，直到最终得到一个大文件。让每个MapTask最终只生成一个数据文件，可避免同时打开大量文件和同时读取大量小文件产生的随机读取带来的开销。

17.2 ReduceTask工作机制

（1）Copy阶段： ReduceTask从各个MapTask上远程拷贝一片数据，并针对某一片数据，如果其大小超过一定阈值，则写到磁盘上，否则直接放到内存中。

（2） Merge阶段：在远程拷贝数据的同时， ReduceTask启动了两个后台线程对内存和磁盘上的文件进行合并，以防止内存使用过多或磁盘上文件过多。

（3）Sort阶段：按照MapReduce语义，用户编写reduce()函数输入数据是按key进行聚集的一组数据。为了将key相同的数据聚在一起， Hadoop采用了基于排序的策略。由于各个MapTask已经实现对自己的处理结果进行了局部排序，因此， ReduceTask只需对所有数据进行一次归并排序即可

（4） Reduce阶段： reduce()函数将计算结果写到HDFS上。

18. 如何决定一个job的map和reduce的数量?

1） map数量

splitSize=max{minSize,min{maxSize,blockSize}}

map数量由处理的数据分成的block数量决定default_num = total_size / split_size;

2） reduce数量

reduce的数量job.setNumReduceTasks(x);x 为reduce的数量。不设置的话默认为 1。

19. MapReduce Shuﬄe机制

20.Yarn组件有哪些?

21.Yarn 调度流程

22. yarn调度策略 scheduler

Hadoop调度器主要分为三类：

FIFO Scheduler：先进先出调度器：优先提交的，优先执行，后面提交的等待【生产环境不会使用】

Capacity Scheduler：容量调度器：允许看创建多个任务对列，多个任务对列可以同时执行。但是一个队列内部还是先进先出。【Hadoop2.7.2默认的调度器】

Fair Scheduler：公平调度器：第一个程序在启动时可以占用其他队列的资源（100%占用），当其他队列有任务提交时，占用资源的队列需要将资源还给该任务。还资源的时候，效率比较慢。【CDH版本的yarn调度器默认】

四、 Hive

23.请谈一下Hive的特点， Hive和RDBMS有什么异同？

Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供完整的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现

简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析，但是Hive 不支持实时查询。

Hive与关系型数据库的区别：

24.数仓的特性特点

25.数仓的分层思想

26.阐述Hive中架构、名词

27. hive SerDe机制（序列化机制）

28.内部表、外部表的区别

29.分区表和分桶表的区别

Hive为什么要分桶？

（1）获得更高的查询处理效率

在分区数量过于庞大以至于可能导致文件系统崩溃时，或数据集找不到合理的分区字段时，我们就需要使用分桶来解决问题了。分区中的数据可以被进一步拆分成桶，不同于分区对列直接进行拆分，桶往往使用列的哈希值对数据打散，并分发到各个不同的桶中从而完成数据的分桶过程。

注意，hive使用对分桶所用的值进行hash，并用hash结果除以桶的个数做取余运算的方式来分桶，保证了每个桶中都有数据，但每个桶中的数据条数不一定相等。如果另外一个表也按照同样的规则分成了一个个小文件。两个表join的时候，就不必要扫描整个表，只需要匹配相同分桶的数据即可，从而提升效率。在数据量足够大的情况下，分桶比分区有更高的查询效率。

（2）数据采样

在真实的大数据分析过程中，由于数据量较大，开发和自测的过程比较慢，严重影响系统的开

发进度。此时就可以使用分桶来进行数据采样。采样使用的是一个具有代表性的查询结果而不是全部结果，通过对采样数据的分析，来达到快速开发和自测的目的，节省大量的研发成本。

（3）分桶和分区的区别

1. 分桶和分区两者不干扰，可以把分区表进一步分桶；

2. 分桶对数据的处理比分区更加细粒度化：分区针对的是数据的存储路径；分桶针对的是数据文件；

3. 分桶是按照列的哈希函数进行分割的，相对比较平均；而分区是按照列的值来进行分割的，容易造成数据倾斜。

（4）文本数据处理

注意：对于分桶表，不能使用loaddata的方式进行数据插入操作，因为loaddata导入的数据不会有分桶结构

30.Hive 中的存储格式

1. TextFile

默认格式，存储方式为行存储，数据不做压缩，磁盘开销大，数据解析开销大。可结合Gzip、

Bzip2使用(系统自动检查，执行查询时自动解压)，但使用这种方式，压缩后的文件不支持split， Hive不会对数据进行切分，从而无法对数据进行并行操作。并且在反序列化过程中，必须逐个字符判断是不是分隔符和行结束符，因此反序列化开销会比SequenceFile高几十倍。

2. SequenceFile

SequenceFile是Hadoop API提供的一种二进制文件支持，，存储方式为行存储，其具有使用方

便、可分割、可压缩的特点。

SequenceFile支持三种压缩选择： NONE ， RECORD ， BLOCK。 Record压缩率低，一般建议使用 BLOCK缩。

优势是文件和hadoop api中的MapFile是相互兼容的

3. RCFile

存储方式：数据按行分块，每块按列存储。结合了行存储和列存储的优点：

首先， RCFile 保证同一行的数据位于同一节点，因此元组重构的开销很低；

其次，像列存储一样， RCFile 能够利用列维度的数据压缩，并且能跳过不必要的列读取； RCFile的一个行组包括三个部分：

第一部分是行组头部的【同步标识】，主要用于分隔 hdfs 块中的两个连续行组

第二部分是行组的【元数据头部】，用于存储行组单元的信息，包括行组中的记录数、每个列的字节数、列中每个域的字节数

第三部分是【表格数据段】，即实际的列存储数据。在该部分中，同一列的所有域顺序存储。

4. ORCFile

存储方式：数据按行分块每块按照列存储。

压缩快快速列存取。

效率比rcﬁle高,是rcﬁle的改良版本

总结：相比TEXTFILE和SEQUENCEFILE ， RCFILE由于列式存储方式，数据加载时性能消耗较大，但是具有较好的压缩比和查询响应。数据仓库的特点是一次写入、多次读取，因此，整体来看， RCFILE相比其余两种格式具有较明显的优势

31.Hive的函数： UDF、 UDAF、 UDTF的区别？

UDF（ User-Deﬁned-Function）: 单行进入，单行输出

UDAF（ User-Deﬁned Aggregation Function）: 多行进入，单行输出

UDTF（ User-Deﬁned Table-Generating Functions）: 单行输入，多行输出

32.Hive基本函数

33.hive函数高阶应用

34.Hive数据倾斜

34.1 数据倾斜原因

34.2 数据倾斜解决方案

参数调优:

35.Hive的HSQL转换为MapReduce的过程？

HiveSQL ->AST(抽象语法树) -> QB(查询块) ->OperatorTree（操作树） ->优化后的操作树- >mapreduce任务树->优化后的mapreduce任务树

过程描述如下：

SQL Parser：Antlr定义SQL的语法规则，完成SQL词法，语法解析，将SQL转化为抽象语法树AST Tree；

Semantic Analyzer：遍历AST Tree，抽象出查询的基本组成单元QueryBlock； Logical plan：遍历QueryBlock，翻译为执行操作树OperatorTree；

Logical plan optimizer: 逻辑层优化器进行OperatorTree变换，合并不必要的ReduceSinkOperator，减少shuﬄe数据量；

Physical plan：遍历OperatorTree，翻译为MapReduce任务；

Logical plan optimizer：物理层优化器进行MapReduce任务的变换，生成最终的执行计划；

36.row_number() ， rank()和dense_rank()的区别

row_number()：根据查询结果的顺序计算排序，多用于分页查询

rank()：排序相同时序号重复，总序数不变

dense_rank()：排序相同时序号重复时，总序数减少

37.请说明Hive中 Sort By ， Order By ， Cluster By， Distrbute By各代表什么意思？

order by：会对输入做全局排序，因此只有一个reducer（多个reducer无法保证全局有序）。只有一个reducer，会导致当输入规模较大时，需要较长的计算时间。

sort by：不是全局排序，其在数据进入reducer前完成排序.

distribute by：按照指定的字段对数据进行划分输出到不同的reduce中。

cluster by：除了具有 distribute by 的功能外还兼具 sort by 的功能。

38.简述拉链表

39.下钻与上卷

维度中有不同的层次，每个层次可以有多个级别，这样就可以根据多个维护层次和级别进行分析，可以灵活获取高级别的汇总信息，获取低级别的明细信息，把获取高级别的汇总信息的过程叫上卷，把获取低级别的明细信息的过程叫下钻，比如：课程访问量分析，时间维度有四个级别，分别是年、月、天、小时，现在我们某个级别分析每天的课程访问量，比如按天分析课程访问量，此时我们可以按小时下钻分析，得出一天内每小时的课程访问量，也可以按月上卷，得到月度的课程访问量。

下钻维度：

天、小时

上卷维度：

年、月

40.渐变维（SCD）

什么是渐变维?

维度可以根据变化剧烈程度主要分为无变化维度、缓慢变化维度和剧烈变化维度。例如一个人的相关信息，身份证号、姓名和性别等信息数据属于不变的部分，政治面貌和婚姻状态属于缓慢变化部分，而工作经历、工作单位和培训经历等在某种程度上属于急剧变化字段。

大多数维度表随时间的迁移是缓慢变化的。比如增加了新的产品，或者产品的ID号码修改了，或者产品增加了一个新的属性，此时，维度表就会被修改或者增加新的记录行。这样，在设计维度和使用维度的过程中，就要考虑到缓慢变化维度的处理。

缓慢渐变维，即维度中的属性可能会随着时间发生改变，比如包含用户住址Address的DimCustomer维度，用户的住址可能会发生改变，进而影响业务统计精度， DimCustomer维度就是缓慢渐变维（SCD）。

SCD有三种分类，我们这里以顾客表为例来进行说明：

假设在第一次从业务数据库中加载了一批数据到数据仓库中，当时业务数据库有这样的一条顾客的信息。

顾客 BIWORK ，居住在北京，目前是一名 BI 的开发工程师。假设 BIWORK 因为北京空气质量 PM2.5 等原因从北京搬到了三亚。那么这条信息在业务数据库中应该被更新了。

那么当下次从业务数据库中抽取这类信息的时候，数据仓库又应该如何处理呢？

我们假设在数据仓库中实现了与业务数据库之间的同步，数据仓库中也直接将词条数据修改更新。后来我们创建报表做一些简单的数据统计分析，这时在数据仓库中所有对顾客 BIWORK 的销售都指向了BIWORK 新的所在地 - 城市三亚，但是实际上 BIWORK 在之前所有的购买都发生在 BIWORK 居住在北京的时候。

通过这个简单的例子，描述了因一些基本信息的更改可能会引起数据归纳和分析出现的问题。

原文地址：https://blog.csdn.net/m0_63845988/article/details/143704545

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：第8章利用CSS制作导航菜单
下一篇：AI 大模型在软件开发中的重塑之旅

ASP.NET 部署到IIS，访问其它服务器的共享文件密码设定
不需要额外操作，修改IIS配置即可如上图。
阅读更多2024-11-14
0基础学前端 day9 -- 了解JS框架
Vue.js 是一个渐进式的 JavaScript 框架，用于构建用户界面。它的核心库关注于视图层，容易上手，并且可以与其他库或项目结合使用。Vue.js 的组件化结构使得代码的重用变得更加容易。Re
阅读更多2024-11-14
Python技巧：格式化输出% 和f-string
Python技巧：格式化输出% 和f-string
阅读更多2024-11-14
Scala 的List
在集合中添加多个集合元素使用..方式，例如 List(1,2)=11,List(3,4)=12,结合这两个集合可以使用1:12=(1,2,3,4)。Scala中的List 与Java中的完全不同，它是
阅读更多2024-11-14
探索Scala编程：图书管理系统实战
通过这个简单的图书管理系统项目，我们不仅学习了如何在Scala中创建类和使用可变列表，还实践了添加、删除、查询和排序等基本操作。希望这个项目能够激发你对Scala编程的兴趣，并帮助你在实际开发中应用这
阅读更多2024-11-14
JS手写-this绑定实现
在 JavaScript 中，bindcall和apply方法都可以用来改变函数的this指向。下面我们将分别实现这些方法的简单版本。
阅读更多2024-11-14
【故障解决】麒麟系统右下角网络图标取消显示叹号
Hello，大家好啊！今天给大家带来一篇关于如何在麒麟系统中解决网络图标出现感叹号问题的文章。在日常使用麒麟系统的过程中，我们在内网或公网环境下，有时会遇到网络图标上出现感叹号的情况。这通常是因为系统
阅读更多2024-11-14
AI界盛会来袭！高录用EI会议（IS-AII 2025）你绝不能错过！
2025年国际人工智能创新研讨会1月11-14日贵阳举行，聚焦AI等领域，邀国内外专家，提供交流平台，推动产学研合作。投稿需全英文，未发表，经同行评议，录用文章将EI检索。
阅读更多2024-11-14
go http小结
ResponseWriterhttp.Request
阅读更多2024-11-14
AI生成字幕模型whisper介绍与使用
随着人工智能技术的飞速发展，AI生成字幕模型已成为视频内容创作和传播领域的重要工具。其中，OpenAI推出的Whisper模型以其卓越的性能和广泛的应用场景，受到了广大用户和研究者的关注。本文将详细介
阅读更多2024-11-14

大数据常见面试题及答案（Linux、Zookeeper、Hadoop、Hive）

一、 Linux

1.如何给⽂件(⽂件夹)分配读r、w、x的操作权限？

2. vi 编辑器的常⽤命令有哪些？

3.Linux 中⽂件的操作权限分为⼏种？

4.Linux 中实时查看日志的方法

5. Linux查看内存、磁盘存储、 io 读写、端口占用、进程 等命令

6. 说⼀说你能想到的 linux 基础指令并解释其作⽤？

二、Zookeeper

7.简述Zookeeper的架构角色

请简述ZooKeeper的选举机制

注意，如果按照5,4,3,2,1的顺序启动，那么5将成为Leader，因为在满足半数条件后， ZooKeeper集群启动， 5的Id最大，被选举为Leader

8. ZooKeeper对节点的watch监听是永久的吗？为什么？

9. 请说明ZooKeeper使用到的各个端口的作用？

三、 Hadoop

10. 分布式分析系统(HDFS)的特点

11.HDFS三个核心组件时什么，分别有什么作用

12. NN如何管理元数据？SNN的功能职责

13.HDFS的存储机制（读写流程）

13.1读流程

13.2写流程

14.小文件存储场景如何优化？

15.Namenode的工作机制

16.Datenode工作机制

17.MapReduce执行流程

17.1 MapTask工作机制