Kafka高频面试题详解

🕗 发布于 2024-11-12 05:49 kafka 分布式

1、kafka是如何做到高效读写

1）Kafka 本身是分布式集群，可以采用分区技术，并行度高

2）读数据采用稀疏索引，可以快速定位要消费的数据。（mysql中索引多了之后，写入速度就慢了）

3）顺序写磁盘

Kafka 的 producer 生产数据，要写入到 log 文件中，写的过程是一直追加到文件末端，为顺序写。官网有数据表明，同样的磁盘，顺序写能到 600M/s，而随机写只有 100K/s。这与磁盘的机械机构有关，顺序写之所以快，是因为其省去了大量磁头寻址的时间。

4）页缓存（PageCache） + 零拷贝技术

参考上图，kafka重度依赖底层的PageCache，当有写操作发生时，会先写到页缓存中，页缓存中的数据存储在内存上，当有读操作发生时，会先从页缓存中读取数据，如果找不到的话会再从磁盘（图中的File）中读取

在流程图中，黑色箭头代表写入流程，橙色箭头代表读取流程

写入

生产者将数据发送给kafka，kafka将数据交给linux内核，linux内核将数据放入自身操作系统的页缓存中，到一定值后写入磁盘

读取

消费者消费时，如果是非零拷贝，直接从页缓存中通过网卡发给消费者，没有去kafka的业务数据中获取数据，所以速度比较快

2、Kafka集群中数据的存储是按照什么方式存储的？

topic数据的存储机制

topic是一种逻辑概念，partition是一种物理概念，每个partition对应一个log文件，存储的是producer生产的数据， producer产生的数据会不断追加到文件末端，为了防止文件过大，kafka采用了分片和索引机制，将每个partition分成了多个segment，segment下有日志文件、索引文件、和时间戳索引文件等，这些文件采用了稀疏索引（运行速度快）

3、kafka中是如何快速定位到一个offset的

首先根据目标找到对应的segment文件，找到小于等于目标offset的最大offset对应的索引项，定位到log文件，向下遍历找到目标record

4、简述kafka中的数据清理策略

Kafka 中默认的日志（这个地方是数据的意思，就是Segment）保存时间为 7 天，可以通过调整如下参数修改保存时间

log.retention.hours，最低优先级小时，默认 7 天。

log.retention.minutes，分钟。 --如果设置了该值，小时的设置不起作用。

log.retention.ms，最高优先级毫秒。 --如果设置了该值，分钟的设置不起作用。

log.retention.check.interval.ms，负责设置检查周期，默认 5 分钟。

那么日志一旦超过了设置的时间，怎么处理呢？

Kafka 中提供的日志清理策略有 delete 和 compact 两种。

1）delete 日志删除：将过期数据删除

log.cleanup.policy = delete 所有数据启用删除策略

（1）基于时间：默认打开。以 segment 中所有记录中的最大时间戳作为该文件时间戳。

（2）基于大小：默认关闭。超过设置的所有日志总大小，删除最早的 segment。

log.retention.bytes，默认等于-1，表示无穷大。

思考：如果一个 segment 中有一部分数据过期，一部分没有过期，怎么处理？

2）compact 日志压缩(合并的意思，不是真的压缩)

compact日志压缩：对于相同key的不同value值，只保留最后一个版本。

log.cleanup.policy = compact 所有数据启用压缩策略

压缩后的offset可能是不连续的，比如上图中没有6，当从这些offset消费消息时，将会拿到比这个offset大的offset对应的消息，实际上会拿到offset为7的消息，并从这个位置开始消费。

这种策略只适合特殊场景，比如消息的key是用户ID，value是用户的资料，通过这种压缩策略，整个消息集里就保存了所有用户最新的资料。

比如：张三去年18岁，今年19岁，这种场景下可以进行压缩。

原文地址：https://blog.csdn.net/m0_58419490/article/details/143692600

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：STM32获取SHT3X温湿度芯片数据
下一篇：kafka 的一些问题，夺命15连问后续

使用pktgen进行高吞吐发包
使用pktgen，能够高效方便地发送测试流量，不用自己再费劲巴拉写代码了，而且linux系统基本都具备，真是一个非常不错的工具！
阅读更多2024-11-14
【STM32F1】——9轴姿态传感器JY901与IIC通信
电压：3.3-5V量程：X/Z轴 ±180°， Y轴 ±90°通信方式：IIC、UART（默认9600波特率）型号区别：JY901S（带温补），JY901B（带气压）帧头格式：以角度输出为例，回传数据
阅读更多2024-11-14
准双向/弱上拉（标准8051输出模式）、仅为输入（高阻）、开漏输出、推挽输出、上拉电阻、下拉电阻都是什么？
在这种模式下，当输出为低电平时，输出端会与地连接（逻辑0），而当输出为高电平时，输出端会处于“高阻”状态（不驱动电流）。与开漏不同，推挽输出能够直接驱动电流，无需外部上拉电阻，适合需要强驱动能力的应用
阅读更多2024-11-14
linux的基础指令
用户可以通过修改LS_COLORS环境变量来自定义颜色配置。34:ln=01;36:ex=01;35'di：目录ln：符号链接ex：可执行文件*.tar.gz：压缩文件*.zip：压缩文件*.jpg：
阅读更多2024-11-14
要查看你的系统是 x64（64位）还是 x86（32位），可以按照以下步骤操作
通过以上方法，你可以轻松地确定你的系统是x64（64位）还是x86（32位）。这对于安装软件、配置开发环境以及解决兼容性问题非常重要。
阅读更多2024-11-14
sql专题之 count()区别
sql语句count(*)、count（1）、count（列名）的区别
阅读更多2024-11-14
【数据库】数据库设计
数据库设计是根据业务系统的具体需要，结合我门所选用的DBMS(数据库管理系统)，为这个业务系统构造出最优的数据存储模型，并建立好数据库中的表结构及表与表之间的关联关系的过程。使之能有效的对应用系统中的
阅读更多2024-11-14
最全最简单理解迭代器
迭代器变量定义使用iterator关键字，形式为：容器<类型>：——iteaator 变量名（如：std::vector<int>::iterator a、vector&l
阅读更多2024-11-14
商标注册没有下来可以先使用吗？
商标注册没有下来可以先使用吗？商标没有注册下来，最好先不要使用，原因如下：1、侵犯商标所有人的商标权：未注册商标在使用过程中可能侵犯商标所有人的商标权，商标所有人可能采取法律行动来保护其权益。3、可能
阅读更多2024-11-14
软件测试面试2024最新热点问题
兼容测试主要是检查软件在不同的硬件平台、软件平台上是否可以正常的运行，即是通常说的软件的可移植性。兼容的类型，如果细分的话，有平台的兼容，网络兼容，数据库兼容，以及数据格式的兼容。兼容测试的重点是，对
阅读更多2024-11-14

Kafka高频面试题详解

1、kafka是如何做到高效读写

2、Kafka集群中数据的存储是按照什么方式存储的？

3、kafka中是如何快速定位到一个offset的

4、简述kafka中的数据清理策略

相关文章