Kafka

🕗 发布于 2024-11-28 12:29 kafka 分布式

1. 什么是 Kafka？

Kafka 是一个 分布式流处理平台，主要用来处理 实时数据流。它最初由 LinkedIn 开发，现在是 Apache 软件基金会的一个开源项目。

Kafka 通常被用作 消息队列 或 数据流处理系统，提供高吞吐量和高可靠性的实时数据分发能力。

Kafka特性：

发布/订阅 模型。
持久化数据存储。
高吞吐量、低延迟。
横向扩展能力。

2. Kafka 的核心概念

2.1 核心组件

组件	描述
Topic	生产者将消息发送到指定的 Topic，消费者订阅 Topic 接收消息。
Partition	每个 Topic 被分成若干分区，分区是 Kafka 中的存储单元。
Offset	分区内消息的唯一标识，消费者通过 Offset 跟踪消息的位置。
Broker	Kafka 的服务器节点，负责存储和分发消息，一个 Kafka 集群由多个 Broker 组成。
Producer	消息生产者，将消息发送到 Kafka。
Consumer	消息消费者，从 Kafka 的分区中读取消息。
Consumer Group	消费者组，多个消费者可以协作消费一个 Topic，确保分区被唯一消费。
ZooKeeper	Kafka 的元数据管理工具。

2.2 Kafka 的消息架构图

生产阶段：
producer将消息发送到Topic分区中去，写入leader目录中去

存储阶段：

每个leader会复制多个副本Segment 文件存储消息，支持高效的顺序写入和查询。

消费阶段：
Consumergroup 从分区的 Leader 拉取消息，按 Offset 跟踪消费进度。

2.3消息流转的详细流程

Producer发送消息：

1.选择一个目标Topic：

Producer将消息发送给Topic分区
Producer会指定一个Topic 进行发送

2.进行分区：

Kafka使用分区策略进行分区
指定一个Partition来分配分区作为存储单元
没有指定的时候则采用轮询方式分配分区

3.将消息发送给分区下的leader：

Producer通过Kafka与leader进行交互
Producer将消息发送给分区下的leader

4.状态确认机制：

Producer可以配置状态来确认消息状态：

0：producer发送给broker就结束（速度最快，但是安全性最低）
1：producer发送给leader写入确认之后返回（速度中等，安全性中等）
all：所有的副本确认写入之后返回（速度最慢，安全性最高）

Broker存储消息：

1.Leader写入消息：

分区里面的Leader负责接受producer发送的消息，分为三个文件.index .log .timeindex文件

其中.log是正真的消息存储文件，.index是索引文件，.timeindex是时间索引文件

2.复制Follower副本：

Follower副本会复制Leader里面的所有内容，作为同步，副本跟Leader是在同一个分区下面，但是分布在分布在不同的broker里面，Leader跟Follower副本是通过选举来实现的，如果当leader宕机的时候，会重新选取一个同步过的Follower副本来重新成为Leader然后在同步给其他Follower副本，这也是为什么Leader跟Follower副本没有在一个Broker下的原因，防止当一个Broker宕机的时候，消息丢失

3.消息持久化：

消息会写入磁盘的Segment文件进行存储
消息按照offset进行存储，支持快速检索

4.消息清理策略：

通过时间进行清理，默认超过7天之后会进行清除
通过大小进行清理，默认超过1G之后会进行清除
可以通过配置来设定具体的时间或者大小

Cusomer拉取消息：

Cusomer订阅Topic：

Cusomergroup订阅一个或多个Topic
Kafka会将分区分配给消费者组中的每一个消费者
每个分区只能被一个消费者消费

Cusomer消费消息：

Cusomer从分区中的leader拉取消息
拉取的消息通过offset标识，cusomer可以通过offset指定从哪个消息开始拉取

消费策略：

Cusomer会只消费最新的消息
Cusomer从分区起始的offset开始消费消息
Cusomer从指定的offset开始消费消息

3.Kafka的优缺点

优点：

高吞吐量：顺序写磁盘、批量处理消息。
持久化存储：消息可以保留指定时间，允许消费者重复读取。
分布式架构：支持水平扩展，轻松处理海量数据。
灵活消费模型：支持广播和分布式消费。

缺点：

存储占用较大，需合理规划存储资源。

4.kafka的使用场景

在电商系统中，kafka主要可以应用于记录用户行为，电商的访问量大的时候，用户行为量每天将会成倍增加，使用RabbitMQ进行订单用户的消息处理还可以，但是在应对大量的用户行为的时候，RabbitMQ就显得有些捉襟见肘了

原文地址：https://blog.csdn.net/weixin_43169845/article/details/144076115

免责声明：本站文章内容转载自网络资源，如侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：Kafka知识体系
下一篇：前端开发设计模式——外观模式

[java] java基础-字符串篇
public StringJoiner(间隔符号,开始符号,结束符号)：创建一个StringJoiner对象，指定拼接时的间隔符号，开始符号，结束符号。指JDK中提供的各种功能的Java类，这些类将底
阅读更多2025-01-24
【C++笔记】哈希表底层实现的深度剖析
哈喽，各位小伙伴大家好!上期我们讲了使用红黑树封装map和set。今天我们来讲一下哈希表底层实现的深度剖析。话不多说，我们进入正题！向大厂冲锋unordered_set的声明如下，Key就是unord
阅读更多2025-01-24
板球背后的数据魔法：如何用数据分析提升印度板球比赛策略
随着板球赛事的数据日益增多，分析技术和方法不断进步，数据已经成为理解和预测比赛结果的核心工具。无论是通过分析球员的个人表现、球队的整体策略，还是通过实时的比赛数据预测，板球比赛的未来将更加依赖数据驱动
阅读更多2025-01-24
数据分析 six库
six库是Python的一个兼容性库，旨在帮助开发者更轻松地编写同时兼容Python 2和Python 3的代码。它是由Ben Hoyt开发的，最初发布于2010年，并在Python社区中被广泛使用。
阅读更多2025-01-24
系统相关类——java.lang.Runtime 类（二）
小编打算近期更俩三期类的专栏，一些常用的专集类，给大家分好类别总结和详细的代码举例解释。今天是第二个java.lang.Runtime 类我们一直都是以这样的形式，让新手小白轻松理解复杂晦涩的概念，把
阅读更多2025-01-24
pandas基础：基本数据结构
类型，而选择多列时返回的是 DataFrame 类型。这种行为是设计上的选择，目的是为了提供更灵活的数据操作方式。中，当你从DataFrame中选择列时，选择的方式会影响返回的数据类型。具体来说，选择
阅读更多2025-01-24
快慢指针及原理证明(swift实现)
快慢指针是一种双指针技巧，常用于遍历链表或是数组。优势如下：1.线性时间复杂度：快慢指针能够在O(n)时间内完成遍历，比暴力方法更高效。2.实时处理：无需额外存储大规模数据，可以在流式日志处理中使
阅读更多2025-01-24
【数据库】详解MySQL数据库中索引的本质与底层原理
这个过程叫寻道，所消耗的时间叫做寻道时间。答：局部性原理：当一个数据被用到时，其附近的数据被用到的概率会增大，所以操作系统为了提高效率，读取数据时往往不是按需读取，而是每次都会预读，即使只需要一个字节
阅读更多2025-01-24
如何处理langcleanupsysprepaction.dll文件的丢失与损坏问题
在使用Windows操作系统时，有时可能会遇到一些DLL文件（动态链接库）丢失或损坏的问题，文件也不例外。这个文件虽然不像一些常见的系统DLL文件那样广为人知，但它对于某些特定的系统操作或应用程序来说
阅读更多2025-01-24
Couchbase UI: Indexes
在Couchbase中，索引的这些指标可以帮助你评估索引的性能和状态。
阅读更多2025-01-24