大数据开发(Kafka面试真题-卷三)
大数据开发(Kafka面试真题)
1、Kafka是如何进行数据备份的?
Kafka通过数据备份来实现高可靠性和容错性。它使用了副本机制来备份数据。
在Kafka中,一个主题(topic)可以被分为多个分区(partition),每个分区可以有多个副本(replica)。每个分区都有一个领导者副本(leader replica)和零个或多个追随者副本(follower replica)。
领导者副本负责处理读写请求,并将数据写入到磁盘中。而追随者副本只负责从领导者副本中复制数据,它们不处理读写请求。
当数据写入到领导者副本时,Kafka会将数据同步复制到所有的追随者副本。只有当所有的追随者副本都成功复制了数据之后,领导者副本才会返回写入成功的响应。
如果领导者副本发生故障,Kafka会从当前的追随者副本中选举一个新的领导者副本。选举过程会保证新选举出的领导者副本与之前的领导者副本保持数据一致性。
通过这种分区和副本的备份机制,Kafka实现了数据的高可用性和容错性。即使某个副本发生故障,其它副本仍然可以继续服务,保证数据的可靠性。
2、Kafka里面存的数据格式是什么样的?
Kafka中存储的数据格式是字节数组(byte array)。Kafka本身不会对数据进行解析或处理,它只是简单地将数据作为字节数组进行存储和传输。因此,数据地具体格式和编码方式完全取决于生产者和消费者之间的约定。生产者可以将数据以任何适合的格式进行序列化(如JSON、Avro、Protobuf等),然后将其转换为字节数组发送到Kafka。消费者在接收到字节数组后,可以根据约定的格式进行反序列化,将其转换为可读的数据。
3、Kafka是如何清理过期文件的?
Kafka通过一种称为“日志段压缩”的机制来清理过期文件。具体步骤如下:
- Kafka将消息以日志段(log segment)的形式写入磁盘,每个日志段有一个唯一的起始和结束偏移量。
- 当一个日志段达到了一定的大小限制(由broker配置决定),或者消息的时间戳超过了一定的保留时间(由主题配置决定),该日志段将被标记为过期。
- Kafka会启动一个后台的线程,定期检查过期的日志段。一旦发现过期日志段,Kafka会将其标记为删除。
- 在删除之前,Kafka会首先进行日志段压缩操作。这个过程将从一个或多个过期的日志段中读取消息,并将它们合并成一个新的较小的日志段中。
- == 一旦压缩完成,Kafka会更新相关的元数据来反映新的日志段的起始和结束偏移量,然后删除过期的日志段==。
4、Kafka的一条message中包含了哪些信息?
- Key(可选):消息的唯一标识符,用于在消息被发送和接收时进行路由和分区。
- Value:消息的实际内容,通常是一个字节数组,可以是任意格式的数据。
- Topic:消息被发送到的主题,用于将消息分类和分组。
- Partition:主题被划分为多个分区,每个分区包含一组有序的消息。Partition是消息被写入的目标分区。
- Offset:每个分区中的每条消息都有一个唯一的位偏移(offset),用于标识消息在分区中的位置。
- Timestamp(可选):消息的时间戳,表示消息被创建或被发送的时间。
- Headers(可选):消息的头部信息,通常用于附加一些自定义的元数据。
5、Kafka中的数据能彻底删除吗?
在Kafka中,一旦数据被写入到主题(topic)中,它将被视为不可变的。因此,Kafka并不直接支持彻底删除数据的操作。即使你尝试删除主题或分区,数据也可能仍然存在于Kafka日志段(log segment)中。
然而,Kafka提供了一种方式来删除数据,即通过设置消息的过期时间(TTL)来自动删除过时的数据。这可以通过在创建主题时设置相应的消息保留策略来实现。例如,你可以设置消息在一段时间后自动过期并被删除。
另外,如果确实需要从Kafka中删除特定的数据,可以通过创建一个新的主题,并只将保留的数据写入其中,然后将旧的主题删除。这样可以实现部分数据的删除,但仍然无法彻底删除所有数据。
需要注意的是,Kafka的设计目标是持久性和可靠性,而不是提供即使删除功能。因此,在使用Kafka时,通常建议将其视为一个不可变的数据源,并使用其它工具或方法来处理数据的删除需求。
6、Kafka分区分配算法?
Kafka使用一种称为”分区分配算法“的方法来决定如何将消息分配到不同的分区中。这个算法主要有两个目标:均匀地分配消息和最小化分区重新分配的次数。
Kafka的分区分配算法有两种实现方式:Range和Round-robin。
- Range算法:这是Kafka的默认分区分配算法。它首先将所有可用的分区按照分区ID进行排序,然后将这些分区按照消费者组的数量进行均匀分配。具体来说,它将所有分区的范围划分为n个子范围,其中n是消费者组的数量。每个消费者组被分配到一个子范围,其中包含一组连续的分区。这样可用确保每个消费者组负责处理一组连续的分区,从而提高效率。
- Round-robin算法:这种算法将所有可用的分区按照分区ID进行排序,并将它们分配给消费者组。每个消费者组依次获取一个分区,直到所有分区都被分配完毕。然后,它会再次从头开始分配分区,以实现循环的分区分配。
7、Kafka蓄水池机制?
Kafka蓄水池机制是一种用于提高数据处理吞吐量和减少延迟的技术。蓄水池机制允许Kafka在一定程度上缓冲和处理大量的消息,而不会立即将它们传递给消费者。
具体来说,蓄水池机制通过引入两个参数来控制消息的消费速率:‘fetch.min.bytes’和’fetch.max.wait.ms’。'fetch.min.bytes’表示每次从Kafka服务器获取的最小字节数,而’fetch.max.wait.ms’表示等待服务器返回数据的最大时间。
当消费者向Kafka服务器发送拉取请求时,如果可用的消息字节数小于’fetch.min.bytes’,Kafka将等待直到消息字节数达到或超过’fetch.min.bytes’。同样地,如果在等待时间超过了’fetch.max.wait.ms’之后仍未达到’fetch.min.bytes’,Kafka也会返回消费者可用地消息。
8、Kafka消息在磁盘上的组织方式?
Kafka消息在磁盘上的组织方式是通过分段(segment)的方式进行存储。每个主题(topic)会被分为多个分段,每个分段由一个日志文件(log file)表示,以一系列连续写入的消息记录(message record)组成。
每个分段都有唯一的标识符,称为分段偏移量(segment offset),用于标记分段中消息的位置。当一个分段达到预设的大小限制时,Kafka会创建一个新的分段,并将新的消息写入到新的分段中,以保持分段的大小控制。
这种分段的组织方式使得Kafka具备了高效的消息读写能力。Kafka使用顺序写入和顺序读取的方式来提高性能,而不需要频繁进行随机访问。此外,分段还使得消息的存储和清理更加灵活,可以根据需要进行分段的压缩和删除。
9、Kafka有哪些地方会有选举过程,使用什么工具支持选举?
- Controller选举:Kafka集群中的Controller负责协调分区的分配、副本的管理等工作。当当前的Controller节点出现故障或不可用时,Kafka会自动进行Controller选举,选择一个新的节点来担任Controller角色。Controller选举是通过Zookeeper来支持的。
- Broker选举:Kafka集群中的每个分区都有一个leader副本和多个follower副本。当leader副本不可用时,Kafka会进行Broker选举,选择一个follower副本升级为新的Leader。Broker选举同样是通过Zookeeper来支持的。
原文地址:https://blog.csdn.net/key_honghao/article/details/136704158
免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!