Kafka消费者

🕗 发布于 2024-04-20 12:13 kafka 分布式 大数据 java

1. 消费者总体工作流程

1）不同消费者组之间的消费者互相独立，可以消费相同的分区或者多个不同的分区；同一个消费者组内的消费者只能消费互不相同的分区。

2）使用offset记录消费者消费到哪儿了，保存在系统主题（__consumer_offsets）中，持久化到硬盘中。

2. 消费者组

Consumer Group（CG）：消费者组，有多个consumer组成。形成一个消费者组的条件，是所有消费者的groupid相同。消费者组内的消费者负责消费不同的分区，一个分区只能由组内一个消费者消费。消费者组之间的消费者互不影响，所有的消费者必须有groupid，都属于某个消费者组。 消费者组是逻辑上的一个订阅者。

在消费者组初始化的过程中，coordinator辅助实现初始化和分区分配的过程。每个broker都有一个coordinator，到底选择哪一个coordinator辅助实现消费者组的初始化和分区分配呢？coordinator的选择 = groupid的哈希值 % 50，50是__consumer_offsets的分区数量，即groupid的哈希值 % 50对应__consumer_offsets分区在哪个broker上，就使用哪个broker的coordinator。未来消费者组提交的offset也存储在__consumer_offsets的这个分区中。

具体的初始化流程如下：每个消费者都向这个coordinator发送JoinGroup请求，然后coordinator会选出一个consumer作为Leader，将需要消费的topic信息发送给Leader消费者，Leader消费者会制定一个消费方案（即各个消费者各自消费哪个分区）并发送给coordinator，coordinator将这个消费方案分发给各个消费者。

每个消费者都会和coordinator保持心跳通信（3s），如果超过一定时间（45s）未保持心跳通信，则会将消费者从组内移出，并触发再平衡策略；消费者处理数据时间过长（超过5min），也会触发再平衡。

消费者组消费数据详细流程：创建消费者网络客户端（ConsumerNetworkClient），用于和Kafka集群进行交互，里面有这些配置参数：fetch.min.byte，每批次最小抓取字节数，默认1字节；fetch.max.wait.ms，一批数据最小值未到达超时时间，默认500ms；fetch.max.byte，每批次最大抓取字节数，默认50M。然后发送send方法发送请求拉取数据，通过回调方法onSuccess将数据保存在队列中，消费者默认从队列中一次拉取500条（max.poll.records）数据，拉取的数据还需要经过反序列化（parseRecord）和拦截器（Interceptors）。

3. 消费者API

单个消费者消费所有分区数据（即一个消费者组里只有一个消费者）：

// 配置
Properties properties = new Properties();
properties.put(ConsumerConfig.BOOTSTRAP_SERVER_CONFIG, "hadoop102:9092,hadoop103:9092");
properties.put(ConsumerConfig.KEY_DESERIALIZER_CLASS_CONFIG, StringDeserializer.class.getName());
properties.put(ConsumerConfig.VALUE_DESERIALIZER_CLASS_CONFIG, StringDeserializer.class.getName());
properties.put(ConsumerConfig.GROUP_ID_CONFIG, "test");


// 创建消费者
KafkaConsumer<String, String> kafkaConsumer = new KafkaConsumer<>(properties)

// 订阅主题
List<String> topics = new ArryaList<>();
topics.add("first")
kafkaConsumer.subscribe(topics);

// 消费数据
while (true) {
    ConsumerRecords<String, String> consumerRecords = kafkaConsumer.poll(Duration.ofSeconds(1));

    for (ConsumerRecords<String, String> consumerRecord : consumerRecords) {
        System.out.println(consumerRecord);
    }
}

消费特定分区数据：

// 配置
Properties properties = new Properties();
properties.put(ConsumerConfig.BOOTSTRAP_SERVER_CONFIG, "hadoop102:9092,hadoop103:9092");
properties.put(ConsumerConfig.KEY_DESERIALIZER_CLASS_CONFIG, StringDeserializer.class.getName());
properties.put(ConsumerConfig.VALUE_DESERIALIZER_CLASS_CONFIG, StringDeserializer.class.getName());
properties.put(ConsumerConfig.GROUP_ID_CONFIG, "test");


// 创建消费者
KafkaConsumer<String, String> kafkaConsumer = new KafkaConsumer<>(properties)

// 订阅主题的分区
List<TopicPartition> topicPartitions = new ArryaList<>();
topicPartitions.add(new TopicPartition("first", 0));
kafkaConsumer.assign(topicPartitions);

// 消费数据
while (true) {
    ConsumerRecords<String, String> consumerRecords = kafkaConsumer.poll(Duration.ofSeconds(1));

    for (ConsumerRecords<String, String> consumerRecord : consumerRecords) {
        System.out.println(consumerRecord);
    }
}

4. 分区的分配以及再平衡

四种分区分配策略：Range、RoundRobin、Sticky。CooperativeSticky。通过参数parititon.assignment.strategy可以修改分区分配策略。默认是使用Range+CooperativeSticky。

Range：对同一个topic里的分区按照序号排序，也会对消费者进行排序，通过partitions/consumers决定每个消费者消费几个分区，如果除不尽，则前面几个消费者会多消费1个分区。

Range分配策略会产生数据倾斜，因为前面几个消费者会多消费1个分区，这只是对于1个topic而言，如果topic多了，则前面几个消费者会明显多消费很多分区。

如果将消费者0干掉，并且在触发再平衡（重新给消费者分配消费的分区）前，那么消费者0本来该消费的所有任务就会全部交给某个消费者进行消费。触发再平衡之后，消费者1会消费0、1、2、3四个分区，消费者2会消费4、5、6三个分区。

RoundRobin：针对所有topic而言，将所有的partition和consumer都列出来，按照hashcode进行排序，通过轮询将partition分给消费者。

修改分区分配策略：

properties.put(ConsumerConfig.PARTITION_ASSIGNMENT_STRATEGY_CONFIG, "org.apache.kafka.clients.consumer.RoundRobinAssignor");

如果将消费者0干掉，并且在触发再平衡（重新给消费者分配消费的分区）前，那么消费者0本来该消费的所有任务会通过轮询依次交给其他消费者进行消费。触发再平衡之后，消费者1会消费0、2、4、6四个分区，消费者2会消费1、3、5三个分区。

Sticky：尽量均匀且随机分配分区给消费者。与Range策略的区别就是随机分配。

修改分区分配策略：

properties.put(ConsumerConfig.PARTITION_ASSIGNMENT_STRATEGY_CONFIG, "org.apache.kafka.clients.consumer.StickyAssignor");

如果将其中某个消费者干掉，并且在触发再平衡（重新给消费者分配消费的分区）前，那么本来该消费的任务会随机分给其他消费者进行消费。

5. offset

消费者将消费的位置/偏移offset保存在系统主题中：__consumer_offsets，__consumer_offsets主题采用key-value的形式进行存储，key是groupid+topic+分区号，value就是offset值。每隔一段时间，Kafka会对这个topic进行compact，也就是每个groupid+topic+分区号保留最新数据。

要想查看系统主题中的offset值，首先需要在config/consumer.properties中添加配置：exclude.internal.topics=false。查看系统主题__consumer_offsets：

bin/kafka-console-consumer.sh --topic __consumer_offsets --bootstrap-server hadoop102:9092 --consumer.config config/consumer.properties --formatter "kafka.coordinator.group.GroupMetadataManager\$OffsetsMessageFormatter" --from-beginning

Kafka默认自动提交offset，相关参数：enable.auto.commit，是否开启自动提交，默认为true；auto.commit.interval.ms，自动提交的时间间隔，默认为5s。相关配置代码：

properties.put(ConsumerConfig.ENABLE_AUTO_COMMIT_CONFIG, true);
properties.put(ConsumerConfig.AUTO_COMMIT_INTERVAL_MS_CONFIG, 1000);

手动提交offset：每次消费完数据之后由消费者自己提交offset信息，分为同步提交（阻塞当前线程，提交offset成功后才消费下一波数据，并且会有失败重试）和异步提交（发送了提交请求之后不管成功，直接消费下一波数据）。相关配置代码：

properties.put(ConsumerConfig.ENABLE_AUTO_COMMIT_CONFIG, false);

手动提交代码：

// 消费数据
while (true) {
    ConsumerRecords<String, String> consumerRecords = kafkaConsumer.poll(Duration.ofSeconds(1));

    for (ConsumerRecords<String, String> consumerRecord : consumerRecords) {
        System.out.println(consumerRecord);
    }

    kafkaConsumer.commitSync(); // 同步提交
    kafkaConsumer.commitAsync(); // 异步提交
}

当Kafka中没有初始偏移量（消费者组第一次消费）或者不存在当前偏移量时，该怎么办。Kafka提供了三中策略，分别对应三种参数配置auto.offset.reset：

1）earliest：自动将偏移量置为最早的偏移量，--from-beginning

2）latest（默认值）：自动将偏移量置为最新的偏移量

3）none：抛异常

如果想从指定offset开始消费，使用seek方法：

// 拿到分区信息
Set<TopicParititon> assignment = kafkaConsumer.assignment();

for (TopicPartition topicPartition : assignment) {
    // 指定offset
    kafkaConsumer.seek(topicPartition, 100);
}

上述代码可能收不到数据，因为消费者组的初始化是需要时间的，获得的assignment可能为空，为保证分区分配方案是初始化完成的，加上如下代码：

while (assignment.size() == 0) {
    kafkaConsumer.poll(Duration.ofSeconds(1));

    assignment = kafkaConsumer.assignment();
}

6. 按照指定时间消费

上面实现了消费指定offset的数据，如果需要消费指定时间之后的数据（比如需要从一天前开始消费），那么需要想办法将时间转化为offset。

// 拿到分区信息
Set<TopicParititon> assignment = kafkaConsumer.assignment();

Map<TopicPartition, Long> topicPartitionMap = new HashMap<>();

for (TopicPartition topicPartition : assignment) {
    topicPartitionMap.put(topicPartition, System.currentTimeMillis() - 1 * 24 * 3600);
}

Map<TopicPartition, OffsetAndTimestamp> topicPartitionOffsetMap = kafkaConsumer.offsetsForTimes(topicPartitionMap);

for (TopicPartition topicPartition : assignment) {
    OffsetAndTimestamp offsetAndTimestamp = topicPartitionOffsetMap.get(topicPartition);
    // 指定offset
    kafkaConsumer.seek(topicPartition, offsetAndTimestamp.offset());
}

7. 漏消费和重复消费

自动提交offset场景下，如果提交offset后，消费者又继续消费了后面的数据，然后挂了，此时下一个offset还未自动提交，那么消费者恢复后，会从原来的offset的位置开始消费，于是出现了重复消费的问题。

手动提交offset场景下，已经提交offset但是数据还在内存中并未完成落盘，此时消费者挂了，于是offset已经提交，数据并未真正处理完，出现了漏消费的问题。

要解决漏消费和重复消费的问题，即实现消费者的精确一次性消费，那么必须采用事务，即Kafka消费者将提交offset和消费数据这两个过程做原子绑定。另外，Kafka的下游消费者（比如Mysql）也必须支持事务。

8. 数据积压的解决方法

原文地址：https://blog.csdn.net/weixin_46628668/article/details/137741520

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：CentOS 7软件安装全攻略：YUM命令详解与实战
下一篇：sprinboot+vue集成neo4j图数据库

基本定时器---内部时钟中断
STM32单片机的基本定时器介绍
阅读更多2024-11-15
高效稳定！新加坡服务器托管方案助力企业全球化布局
在全球化的商业环境中，企业对于高效、稳定的服务器托管方案的需求日益迫切。作为亚洲的服务器托管中心，新加坡凭借其独特的地理位置、稳定的政治环境、先进的科技设施以及开放的市场政策，为企业提供了理想的服务器
阅读更多2024-11-15
我要学kali-linux之shell脚本编程1
学习视频来自B站up主 **泷羽sec** 有兴趣的师傅可以关注一下，如涉及侵权马上删除文章，笔记只是方便各位师傅的学习和探讨，文章所提到的网站以及内容，只做学习交流，其他均与本人以及泷羽sec团队无
阅读更多2024-11-15
【网络安全】公钥基础设施
公钥基础设施（Public Key Infrastructure，简称PKI）是一种基于公钥密码学的系统，它提供了一套完整的解决方案，用于管理和保护通过互联网传输的信息。PKI的核心功能包括密钥管理、
阅读更多2024-11-15
PGMP-练练03 ❥(^_-)
由于项目集负责向组织提供收益，因此项目集经理、项目集团队成员、项目经理和团队成员以及其他项目集利益相关者都在收益管理中具有关键角色和责任。项目集 A 正在实现计划收益，然而项目集 B 的项目集经理刚
阅读更多2024-11-15
【c++笔试强训】（第八篇）
其中，有个游戏是这样的：首先，让 n 个小朋友们围成一个大圈，小朋友们的编号是0~n-1。然后，随机指定一个数 m ，让编号为0的小朋友开始报数。每次喊到 m-1 的那个小朋友要出列唱首歌，然后可以在
阅读更多2024-11-15
C语言之中缀表达式转换为波兰表达式、逆波兰表达式
C语言之中缀表达式转换为波兰表达式、逆波兰表达式，通过将运算符号压入栈、弹出栈等操作实现普通（中缀）表达式和前缀后缀（波兰、逆波兰）表达式之间的转换。
阅读更多2024-11-15
curl 安装最新版
配置编译参数：/usr/local为指定的安装路径，--with-ssl表示需要支持ssl。为了使curl能支持ssl功能，需要提前安装openssl，执行下列指令进行安装。库文件在对应的lib路径，
阅读更多2024-11-15
Conda环境与Ubuntu环境移植详解
迁移Conda环境是数据科学和机器学习开发中的一项重要任务。通过YAML文件迁移或直接复制环境文件夹的方法，可以在不同设备间无缝切换Conda环境，确保项目依赖的一致性。在进行环境迁移时，需要注意CU
阅读更多2024-11-15
Java面向对象高级2
感觉就是有时候简化代码用的？
阅读更多2024-11-15