Kafka架构详解之分区Partition

🕗 发布于 2024-07-18 15:36 kafka 架构分布式后端中间件

一、简介

Apache Kafka 是分布式发布 - 订阅消息系统，在 kafka 官网上对 kafka 的定义：一个分布式发布 - 订阅消息传递系统。
Kafka 最初由 LinkedIn 公司开发，Linkedin 于 2010 年贡献给了 Apache 基金会并成为顶级开源项目。
Kafka 的主要应用场景有：日志收集系统和消息系统。
Kafka的原理、基础架构、以及使用场景-mikechen的互联网架构

二、架构

Kafka 的架构包括以下组件：
Kafka的原理、基础架构、以及使用场景-mikechen的互联网架构

1、话题（Topic）：是特定类型的消息流。消息是字节的有效负载（Payload），话题是消息的分类名；
2、生产者（Producer）：是能够发布消息到话题的任何对象
3、服务代理（Broker）：已发布的消息保存在一组服务器中，它们被称为代理（Broker）或 Kafka 集群；
4、消费者（Consumer）：可以订阅一个或多个话题，并从 Broker 拉数据，从而消费这些已发布的消息；

上图中可以看出，生产者将数据发送到 Broker 代理，Broker 代理有多个话题 topic ，消费者从 Broker 获取数据。

三、分区Partition

用过消息队列的同学对Kafka都不陌生，但是Kafka的topic中存在一个分区的概念，这是他和其他消息队列组件性能上一分高下的其中一个技术点，当然也是用好Kafka需要咱们开发人员理解透彻的一个技术点，接下来咱们就来掰扯一下分区Partition。

1.分区概念

在这里插入图片描述
Kafka 中 Topic 被分成多个 Partition 分区。
Topic 是一个逻辑概念，Partition 是最小的存储单元，掌握着一个 Topic 的部分数据。
每个 Partition 都是一个单独的 log 文件，每条记录都以追加的形式写入。
Record（记录）和 Message（消息）是一个概念。
在这里插入图片描述

2.Offsets（偏移量）和消息的顺序

Partition 中的每条记录都会被分配一个唯一的序号，称为 Offset（偏移量）。
Offset 是一个递增的、不可变的数字，由 Kafka 自动维护。
当一条记录写入 Partition 的时候，它就被追加到 log 文件的末尾，并被分配一个序号，作为 Offset。
在这里插入图片描述

如上图，这个 Topic 有 3 个 Partition 分区，向 Topic 发送消息的时候，实际上是被写入某一个 Partition，并赋予 Offset。
消息的顺序性需要注意，一个 Topic 如果有多个 Partition 的话，那么从 Topic 这个层面来看，消息是无序的。
但单独看 Partition 的话，Partition 内部消息是有序的。
所以，一个 Partition 内部消息有序，一个 Topic 跨 Partition 是无序的。
如果强制要求 Topic 整体有序，就只能让 Topic 只有一个 Partition。

3.分区如何为Kafka提供扩展能力

在这里插入图片描述
一个 Kafka 集群由多个 Broker（就是 Server）构成，每个 Broker 中含有集群的部分数据。
Kafka 把 Topic 的多个 Partition 分布在多个 Broker 中。
这样会有多种好处：

如果把 Topic 的所有 Partition 都放在一个 Broker 上，那么这个 Topic 的可扩展性就大大降低了，会受限于这个 Broker 的 IO 能力。把 Partition 分散开之后，Topic 就可以水平扩展。
一个 Topic 可以被多个 Consumer 并行消费。如果 Topic 的所有 Partition 都在一个 Broker，那么支持的 Consumer 数量就有限，而分散之后，可以支持更多的 Consumer。
一个 Consumer 可以有多个实例，Partition 分布在多个 Broker 的话，Consumer 的多个实例就可以连接不同的 Broker，大大提升了消息处理能力。可以让一个 Consumer 实例负责一个 Partition，这样消息处理既清晰又高效。

Kafka 为一个 Partition 生成多个副本，并且把它们分散在不同的 Broker。
如果一个 Broker 故障了，Consumer 可以在其他 Broker 上找到 Partition 的副本，继续获取消息。Partition 为 Kafka 提供了数据冗余。

4.producer写入策略

生产者写入分区的策略主要有以下几种：

1.轮询分区策略：生产者可以使用轮询策略将消息依次写入每个分区，实现负载均衡。在每次发送消息时，生产者会按照轮询的方式选择下一个可用的分区，并将消息写入该分区。这样可以确保消息均匀地分布在各个分区中。

2.随机分区策略：Kafka生产者随机的将消息写入分区，有可能会造成消息的分布不均，所以这个策略基本上也很少用。

3.按 key 分区策略：Kafka生产者基于消息的键（key）进行哈希计算，然后将消息写入对应的分区。这种策略可以保证具有相同键的消息被写入到相同的分区，从而保证消息的顺序性。
这种方式需要注意 Partition 热点问题。
例如使用 User ID 作为 Partition Key，如果某一个 User 产生的消息特别多，是一个头部活跃用户，那么此用户的消息都进入同一个 Partition 就会产生热点问题，导致某个 Partition 极其繁忙。

4.自定义分区策略：Kafka生产者可以使用自定义分区策略来决定将消息写入哪个分区。

在这里插入图片描述

5.consumer消费机制

Kafka 不像普通消息队列具有发布/订阅功能，Kafka 不会向 Consumer 推送消息。当年因为不想换消息队列，用Kafka强行实现了发布订阅功能也正是利用了他的消费机制，具体可以看我之前的一篇帖子SpringBoot Kafka动态指定消费组。
Consumer 必须自己从 Topic 的 Partition 拉取消息。
一个 Consumer 连接到一个 Broker 的 Partition，从中依次读取消息。
在这里插入图片描述
消息的 Offset 就是 Consumer 的游标，根据 Offset 来记录消息的消费情况。
读完一条消息之后，Consumer 会推进到 Partition 中的下一个 Offset，继续读取消息。
Offset 的推进和记录都是 Consumer 的责任，Kafka 是不管的。
在这里插入图片描述
Kafka 中有一个 Consumer Group（消费组）的概念，多个 Consumer 组团去消费一个 Topic。
同组的 Consumer 有相同的 Group ID。
Consumer Group 机制会保障一条消息只被组内唯一一个 Consumer 消费，不会重复消费。
消费组这种方式可以让多个 Partition 并行消费，大大提高了消息的消费能力，最大并行度为 Topic 的 Partition 数量。
在这里插入图片描述
当你consumer数量大于partition数量的时候，其余空闲的consumer就是一种容错机制，当有consumer因其他原因无法正常工作时，空闲的节点就会补充上来。

原文地址：https://blog.csdn.net/u010786653/article/details/140035875

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：python实现建立一个学生成绩管理系统
下一篇：mysql 第一次作业

docker安装minio、使用springboot集成minio同时创建并设置minio桶仅可读
其中请自行修改用户名、密码、挂载目录和对应的端口与映射（密码至少需要9位，否则启动报错）其中9001是后台服务的端口。
阅读更多2024-11-16
『VUE』27. 透传属性与inheritAttrs（详细图文注释）
『VUE』27. 透传属性与inheritAttrs（详细图文注释）
阅读更多2024-11-16
PostgreSQL物化视图详解
随着数据库规模的增大和查询复杂性的提高，数据库查询的性能问题变得越来越突出。为了优化查询性能，数据库系统引入了物化视图的概念。物化视图是一种预先计算和存储的查询结果，它可以在需要时直接提供查询结果，而
阅读更多2024-11-16
每日一题之进制转换
对于给定的十进制整数N（N<100000），将1到N（含N）之间的每个整数转成十六进制，求转换后的所有十六进制数中含A的总个数。提示：某个数的16进制含A的个数可以参照下面的例子：对于整数42
阅读更多2024-11-16
web与网络编程
通常使用的网络(包括互联网)都是在TCP/IP协议族的基础上运作的。而HTTP属于它内部的一个。
阅读更多2024-11-16
塑料薄膜厂需要用到哪些自动化备件
此外，根据塑料薄膜厂的具体需求和规模，还可能需要其他特定的自动化备件，如自动化流水线、全自动分切机、自动测试机等。在选择备件时，塑料薄膜厂应优先考虑备件的质量、耐用性、兼容性和售后服务等因素，以确保备
阅读更多2024-11-16
实验二：Docker存储配置与管理
非持久化数据是不需要保存的那些数据，容器本地存储中的数据就属于这种类型。容器创建时会创建非持久化存储，这是容器全部文件和文件系统保存的地方。默认情况下，在容器内创建的所有文件都存储在可写容器层，文件系
阅读更多2024-11-16
git本地分支推送到远程和远程pull到本地
在推送到远程仓库之前，你也可能想要先执行 git fetch 和 git pull 以确保你的本地分支是最新的。要将本地分支推送到远程仓库的某个分支（可以是同名的分支，也可以是不同名的分支），你可以使
阅读更多2024-11-16
大模型时代，呼叫中心的呼入机器人系统如何建设？
作者：开源呼叫中心系统 FreeIPCC，Github地址：https://github.com/lihaiya/freeipcc呼叫中心呼入机器人系统的建设是一个涉及多个环节和领域的综合性工程。
阅读更多2024-11-16
HTTP/2新型DDoS攻击：技术深度剖析与防御指南
在智能化演进和互联网技术高速发展的背景下，黑客攻击手段不断翻新，DDoS攻击的强度、频率和复杂度也随之持续攀升。金融、政务、互联网等多个领域及其关键基础设施正面临着前所未有的DDoS攻击威胁。
阅读更多2024-11-16