Kafka

🕗 发布于 2024-07-26 13:18 kafka 分布式

Kafka 是一个高性能的分布式消息队列系统，最初由 LinkedIn 开发，后来成为 Apache 软件基金会的一部分。Kafka 设计用于处理大规模的数据流，提供高吞吐量、低延迟的消息传递机制。以下是 Kafka 的一些关键概念和架构，以及其工作原理的详细介绍。

Kafka 基本概念

1. 主题 (Topic)

定义：Kafka 中的消息被组织在主题中。一个主题是一个逻辑上的消息分类。
分区：每个主题可以分为多个分区，分区使得消息能够并行处理，从而提高吞吐量。

2. 生产者 (Producer)

定义：生产者是向 Kafka 主题发布消息的应用程序。
功能：生产者将消息发送到指定的主题，可以选择特定的分区进行发送，也可以让 Kafka 自行决定。

3. 消费者 (Consumer)

定义：消费者是从 Kafka 主题中读取消息的应用程序。
功能：消费者订阅一个或多个主题，消费消息并处理。

4. 代理 (Broker)

定义：Kafka 代理是 Kafka 集群中的服务器，负责接收和存储消息。
功能：每个代理管理一个或多个分区，并处理与生产者和消费者之间的通信。

5. 集群 (Cluster)

定义：Kafka 集群由多个 Kafka 代理组成。
功能：集群中的代理共同工作，存储和处理消息，确保高可用性和故障恢复。

6. 副本 (Replica)

定义：每个分区可以有多个副本，用于数据冗余和高可用性。
功能：副本确保即使某个代理发生故障，数据也不会丢失。

7. 偏移量 (Offset)

定义：偏移量是消费者在分区中读取消息的位置标识符。
功能：消费者使用偏移量跟踪已消费的消息，确保消息的顺序和重复消费的处理。

Kafka 架构与工作原理

1. 生产者与消息发送

消息发送：生产者将消息发送到 Kafka 主题。每条消息被追加到分区的末尾。
分区选择：生产者可以选择分区或使用默认的分区策略（如轮询、哈希分配）。

源码解析：

public class KafkaProducer<K, V> {
    public void send(ProducerRecord<K, V> record) {
        // 发送消息
        producer.send(record, callback);
    }
}

2. 消息存储

日志文件：Kafka 将每个分区的消息存储在磁盘上的日志文件中。日志文件是追加的，数据不可变。
清理策略：Kafka 使用不同的日志清理策略（如基于时间、大小）来管理日志文件。

源码解析：

public class Log {
    public void append(Message message) {
        // 追加消息到日志
        logFile.append(message);
    }
}

3. 消费者与消息消费

消息读取：消费者从分区中读取消息，并通过偏移量进行跟踪。
消费者组：消费者可以组成消费者组，以便在多个消费者之间分配分区，进行负载均衡。

源码解析：

public class KafkaConsumer<K, V> {
    public ConsumerRecords<K, V> poll(Duration timeout) {
        // 拉取消息
        return consumer.poll(timeout);
    }
}

4. 副本与数据冗余

主副本与从副本：每个分区有一个主副本和多个从副本。主副本处理读写请求，从副本负责数据备份。
数据同步：主副本将消息同步到从副本，以确保数据一致性。

源码解析：

public class ReplicaManager {
    public void syncReplica() {
        // 同步副本
        replica.sync();
    }
}

5. 高可用性与故障恢复

领导者选举：每个分区的主副本负责处理读写请求。当主副本故障时，Kafka 会进行领导者选举，指定新的主副本。
自动恢复：故障恢复和副本同步机制确保系统的高可用性和数据的持久性。

源码解析：

public class KafkaController {
    public void electLeader() {
        // 选举新的领导者
        controller.electLeader();
    }
}

6. 消息流处理

Kafka Streams：Kafka 提供了流处理库 Kafka Streams，用于在流数据中执行实时处理和计算。
KSQL：KSQL 是一种流式查询语言，用于在 Kafka 流上执行 SQL 查询。

源码解析：

public class KafkaStreams {
    public void start() {
        // 启动流处理
        streams.start();
    }
}

Kafka 高级特性

1. 消息压缩

定义：Kafka 支持消息压缩，减少网络带宽和存储空间的消耗。
实现：支持多种压缩算法（如 GZIP、Snappy、LZ4）。

2. 事务支持

定义：Kafka 支持事务，以确保消息的原子性和一致性。
实现：事务可以确保消息的发布和消费的一致性，支持跨分区和跨主题的事务操作。

3. 流处理

Kafka Streams：用于实时数据流的处理，包括数据转换、聚合、连接等。
KSQL：提供 SQL 语法来处理 Kafka 流数据，简化了流处理的操作。

4. 安全性

认证与授权：Kafka 提供多种安全机制，包括 SASL、TLS 加密和 ACL（访问控制列表）来保护数据和控制访问权限。

总结

Kafka 是一个强大的分布式消息系统，具备高吞吐量、低延迟、高可靠性和扩展性。了解 Kafka 的底层架构和工作原理，有助于在实际应用中优化性能、实现数据流处理和解决复杂的消息传递需求。希望这篇博客能够帮助你更深入地理解 Kafka 的核心概念和实现细节。如果你有任何问题或想法，欢迎在评论区讨论！

原文地址：https://blog.csdn.net/Casual_Lei/article/details/140701648

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

excel如何快速选中某个数字或者某串数字
鼠标光标放在某个数字或者某串数字的末尾，进行双击鼠标左键即可（就会选中当前鼠标光标前相邻的所有数字）：
阅读更多2024-09-17
面试官问：请描述一次你成功解决问题的经历？
面试官为什么要这么问？面试官问你描述一次成功解决问题的经历，主要是为了评估你的几个关键方面：问题解决能力：了解你在面对挑战时的思维方式和应对策略。决策能力：考察你在压力下做出明智决定的能力。沟通技巧：
阅读更多2024-09-17
VLMEvalKit 评测实践:InternVL2 VS Qwen2VL
多模态技术的突破，正在改变我们理解和交互世界的方式。无论是强大的感知能力、复杂的推理分析，还是图文融合的创新应用，InternVL2 与 Qwen2-VL 展现了大模型的无限可能。
阅读更多2024-09-17
mybatis开启日志
步骤很详细，直接上教程……
阅读更多2024-09-17
MySQL——数据库的高级操作（一）数据备份与还原（1）数据的备份
MySQL——数据库的高级操作（一）数据备份与还原（1）数据的备份
阅读更多2024-09-17
Blender渲染太慢怎么办？blender云渲染已开启
此次，渲染101云渲染农场正式加入了对Blender的全面支持，涵盖Blender的所有版本，不论是较新的Blender 4.0还是早期版本，都可轻松对接渲染101平台服务。不论是小型独立项目还是大型
阅读更多2024-09-17
ubuntu安装mysql 8.0忘记root初始密码，如何重新修改密码
修改my.cnf文件，在文件新增 skip-grant-tables，在启动mysql时不启动grant-tables，授权表。5.注释掉skip-grant-tables后重启mysql。2、修改m
阅读更多2024-09-17
JVM面试真题总结（十一）
总的来说，Java内存模型主要解决了多线程环境下共享数据的一致性、可见性等问题，是Java并发编程的基础。这种模型的好处是，由于启动类加载器是最顶部的加载器，因此它加载的都是最可信任的类库（Java的
阅读更多2024-09-17
Ubuntu 软件仓库镜像使用帮助
选择镜像。
阅读更多2024-09-17
用于稀疏自适应深度细化的掩码空间传播网络 CVPR2024
图像引导的深度补全是一项通过利用稀疏深度测量和RGB图像来估计密集深度图的任务；它通过估算深度来填充未测量的区域。由于许多深度传感器（如LiDAR和飞行时间相机（ToF））只能提供稀疏的深度图，这项任
阅读更多2024-09-17

Kafka

Kafka 基本概念

1. 主题 (Topic)

2. 生产者 (Producer)

3. 消费者 (Consumer)

4. 代理 (Broker)

5. 集群 (Cluster)

6. 副本 (Replica)

7. 偏移量 (Offset)

Kafka 架构与工作原理

1. 生产者与消息发送

2. 消息存储

3. 消费者与消息消费

4. 副本与数据冗余

5. 高可用性与故障恢复

6. 消息流处理

Kafka 高级特性

1. 消息压缩

2. 事务支持

3. 流处理

4. 安全性

总结

相关文章