kafka

🕗 发布于 2024-04-19 13:01 kafka 分布式

一、kafka

1.1 为什么需要消息队列（MQ）

因为在高并发环境下，同步请求来不及处理，请求往往发生阻塞。例如：大量请求访问数据库，最后还会导致线程过多，容易引发雪崩。

我们使用消息队列，通过异步处理请求缓解系统的压力。消息队列应用于异步处理，流量削峰，应用解耦，消息通讯等场景

比较常见的MQ中间件有ActiveMQ（基本淘汰）、HabbitMQ（主流）、RocketMQ（主流）、kafka等

1.2 使用消息队列有什么好处

解耦：独立扩展或修改两边的处理过程，前提是确保它们能够遵守相同的接口约束
可恢复性：系统的一部分组件失效时，不会影响到整个系统。消息队列降低了进程间的耦合度，所以即使一个处理消息的进程挂掉，加入队列中的消息仍然可以在系统恢复后被处理
缓冲：有利于控制和优化数据流经过系统的速度，解决生产消息和消费消息的处理速度不一致
灵活性&峰值处理能力：使用消息队列可以使关键组件顶住突发的访问压力，而不会导致超负荷从而请求完全崩溃
异步通信：想向队列中放入多少消息就放入多少消息，然后需要的时候再进行处理

1.3 消息队列的模式

点对点模式（一对一，消费者主动拉取数据，消息收到后消息清除）
发布/订阅模式（一对多，消费者消费数据之后不会清除数据）

1.4 kafka的概念

kafka是一个分布式的基于发布/订阅模式的消息队列，主要应用于大数据实时处理领域，它支持分区的，多副本的，基于zookeeper协调的分布式消息中间系统。

1.5 kafka的特性

高吞吐量、低延迟：每秒可以处理几十万条信息，它的延迟只有几毫秒，它可以提高负载均衡和消费能力
可扩展性：kafka集群支持热扩展
持久性、可靠性：消息被持久化到本地磁盘，支持数据备份防止数据丢失
容错性：允许群集中节点失败
高并发：支持千万客户端同时进行读写操作

1.6 kafka的系统架构

broker——服务器

一台kafka服务器就是一个broker，一个由多个broker组成，一个broker可以容纳多个topic

topic——主题

类似于数据库中的表或者ES的index（索引），生产者消费者都面相一个topic，物理上不同topic的消息分开存储

partition——分区

一个topic可以分割成多个partition，每个partition都是有序的，kafka只保证partition里的数据是有序，不保证partition的顺序

每个partition中的数据使用多个segment文件存储

1.6.1 分区的原因

方便在急群众扩展，每个partition调整来适应它的机器，一个topic可以由多个partition组成，因此集群可以适应任意大小的数据
可以调高并发

replica——副本
leader——只负责数据的读写
follower——只负责数据的备份
producer——数据的发布者
Consumer——消费者
Consumer Group（GC）——消费者组
offset偏移量：默认生命周期为1周（7*24小时）
zookeeper：kafka通过zookeeper来存储集群的meta信息。作用：生产者push数据到kafka集群，就必须要找到kafka集群的节点在哪，这些都是通过zookeeper寻找的。消费者消费哪一条数据也需要zookeeper的支持，zookeeper获取offset，offset记录上一次数据消费到哪，这样可以接着上一条数据进行消费

注意：同一组内不能消费同一组的partition

二、kafka拓展

2.1 Kafka工作流程及文件存储机制

Kafka 中消息是以 topic 进行分类的，生产者生产消息，消费者消费消息，且都是面向 topic 的

为了防止生产者不断生产消息追加到log中而导致数据定位效率低下。Kafka采取了分片和索引机制，将每个partition分为多个segment。每个segment对应两个文件：“.index” 文件和 “.log” 文件。这些文件位于一个文件夹下，该文件夹的命名规则为：topic名称+分区序号。

index 和 log 文件以当前 segment 的第一条消息的 offset 命名。

.index——文件存储大量的索引信息

.log——文件存储大量的数据

索引文件中的元数据——对应数据文件中message的物理偏移地址

2.2 数据可靠性

为保证producer发送的数据，能可靠的发送到指定的 topic，topic的每个partition收到 producer 发送的数据后，都需要向producer发送 ack（acknowledgement 确认收到），如果producer收到 ack，就会进行下一轮的发送，否则重新发送数据

2.3 数据一致性

LEO：指的是每个副本最大的offset
HW：指的是消费者能见到的最大的offset，即所有副本中最小的LEO

2.3.1 follower故障

follower发生故障后会被临时踢出ISR（Leader 维护的一个和Leader保持同步的Follower集合），待该follower 恢复后，follower会读取本地磁盘记录的上次的HW，并将log文件高于HW的部分截取掉，从HW开始向 leader 进行同步。等该follower的LEO 大于等于该 Partition的HW，即follower追上leader之后，就可以重新加入ISR了

2.3.2 leader故障

leader发生故障之后，会从ISR中选出一个新的leader之后，为保证多个副本之间的数据一致性，其余的follower会先将各自的 log 文件高于HW的部分截掉，然后从新的leader同步数据

2.4 ack应答机制

producer向leader发送数据时，可以通过 request.required.acks 参数来设置数据可靠性的级别：

级别	功能	优点	缺点	注意事项
0	producer无需等待来自broker的确认而继续发送下一批消息	传输效率高	可靠性低	borker故障时可能会造成数据丢失
1	producer在ISR中的leader已成功收到的数据并得到确认后发送下一条message	传输率较高	可靠性较低	follower同步成功之前leader故障，那么将会丢失数据
-1	producer需要等待ISR中的所有follower都确认接收到数据后才算一次发送完成	传输效率低	可靠性高	follower 同步完成后，broker 发送ack 之前，leader 发生故障，那么会造成数据重复

原文地址：https://blog.csdn.net/sea_bunch/article/details/137864052

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：RabbbitMQ基本使用及其五种工作模型
下一篇：登录解析(后端)

leetcode289:生命游戏
根据，简称为，是英国数学家约翰·何顿·康威在 1970 年发明的细胞自动机。给定一个包含m × n个格子的面板，每一个格子都可以看成是一个细胞。每个细胞都具有一个初始状态：1即为（live），或0即为
阅读更多2024-10-20
MongoDB数据恢复
注意：两个MongoDB的版本要一致，本文使用的是mongo:4.2.24。先把K8S上面的MongoDB 容器停止（可以把副本改成0）。1、将容器挂载MongoDB的数据目录备份到本地。经常是数据文
阅读更多2024-10-20
C#中实现事务
C#中实现事务
阅读更多2024-10-20
【LeetCode每日一题】——560.和为 K 的子数组
给你一个整数数组 nums 和一个整数 k ，请你统计并返回该数组中和为 k 的子数组的个数。子数组是数组中元素的连续非空序列。
阅读更多2024-10-20
「漏洞复现」满客宝智慧食堂系统 selectUserByOrgId 未授权访问漏洞
请勿利用文章内的相关技术从事非法测试，由于传播、利用此文所提供的信息而造成的任何直接或者间接的后果及损失，均由使用者本人负责，作者不为此承担任何责任。工具来自网络，安全性自测，如有侵权请联系删除。本次
阅读更多2024-10-20
React面试题目（从基本到高级）
React前端面试常见题目涵盖了React的基础概念、组件、状态管理、生命周期、性能优化等多个方面。
阅读更多2024-10-20
12.个人博客系统（Java项目基于spring和vue）
1 在校学习的学生，可用于日常学习使用或是毕业设计使用 2 毕业一到两年的开发人员，用于锻炼自己的独立功能模块设计能力，增强代码编写能力。 3 亦可以部署为商化项目使用。 4 需要完整资料及源码
阅读更多2024-10-20
YoloV8改进策略：注意力改进|DeBiFormer，可变形双级路由注意力|引入DeBiLevelRoutingAttention注意力模块（全网首发）
本次改进的核心在于将DeBiLevelRoutingAttention模块嵌入到YoloV8的主干网络中，具体位置是在SPPF（Spatial Pyramid Pooling Fast）模块之后。这一
阅读更多2024-10-20
word取消自动单词首字母大写
情况说明：在word输入单词后首字母会自动变成大写取消单词首字母大写步骤：（1）点击菜单栏文件（2）点击“更多”——>“选项”（3）点击“校对”——>“自动更正选项”（4）取消“句首字母大
阅读更多2024-10-20
web前端网页用户注册页面
【代码】web前端网页用户注册页面。
阅读更多2024-10-20