kafka

🕗 发布于 2024-11-16 15:14 kafka topic

文章目录

一、Kafka入门
二、kafka基础架构
三、Kafka进阶

一、Kafka入门

Kafka是一个由Scala和Java语言开发的，经典高吞吐量的分布式消息发布和订阅系统，也是大数据技术领域中用作数据交换的核心组件之一。以高吞吐、可持久化、可水平扩展、支持流数据处理等特性，备受广大技术组织的喜爱。

1.1、JMS

JMS(Java Message Service)是Java平台的消息中间件通用规范，定义了主要用于消息中间件的标准接口。如果不是很理解这个概念，可以简单地将JMS类比为Java和数据库之间的JDBC规范。Java应用程序根据JDBC规范中的接口访问关系型数据库，而每个关系型数据库厂商可以根据JDBC接口来实现具体的访问规则。JMS定义的就是系统和系统之间传输消息的接口。

JMS支持两种消息发送和接收模型：一种是P2P（Peer-to-Peer）点对点模型，另外一种是发布/订阅（Publish/Subscribe）模型。

P2P模型
P2P模型是基于队列的，消息生产者将数据发送到消息队列中，消息消费者从消息队列中接收消息。因为队列的存在，消息的异步传输成为可能。P2P模型的规定就是每一个消息数据，只有一个消费者，当发送者发送消息以后，不管接收者有没有运行都不影响消息发布到队列中。接收者在成功接收消息后会向发送者发送接收成功的消息。
发布 / 订阅模型
所谓的发布订阅模型就是事先将传输的数据进行分类，我们管这个数据的分类称之为主题（Topic）。也就是说，生产者发送消息时，会根据主题进行发送。比如咱们的消息中有一个分类是NBA，那么生产者在生产消息时，就可以将NBA篮球消息数据发送到NBA主题中，这样，对NBA消息主题感兴趣的消费者就可以申请订阅NBA主题，然后从该主题中获取消息。这样，也就是说一个消息，是允许被多个消费者同时消费的。这里生产者发送消息，我们称之为发布消息，而消费者从主题中获取消息，我们就称之为订阅消息。Kafka采用就是这种模型。

1.2、生产者-消费者模式

生产者-消费者模式是通过一个容器来解决生产者和消费者的强耦合问题。生产者和消费者彼此之间不直接通信，而通过阻塞队列来进行通信，所以生产者生产完数据之后不用等待消费者处理，直接扔给阻塞队列，消费者不找生产者要数据，而是直接从阻塞队列里取，阻塞队列就相当于一个消息缓冲区，平衡了生产者和消费者的处理能力。在数据传输过程中，起到了一个削弱峰值的作用，也就是我们经常说到的削峰。

在这里插入图片描述图形中的缓冲区就是用来给生产者和消费者解耦的。在单点环境中，我们一般会采用阻塞式队列实现这个缓冲区。而在分布式环境中，一般会采用第三方软件实现缓冲区，这个第三方软件我们一般称之为中间件。纵观大多数应用场景，解耦合最常用的方式就是增加中间件。

遵循JMS规范的消息传输软件（RabbitMQ、ActiveMQ、Kafka、RocketMQ），我们一般就称之为消息中间件。使用软件的目的本质上也就是为了降低消息生产者和消费者之间的耦合性。提升消息的传输效率。

1.3、ZooKeeper

ZooKeeper是一个开放源码的分布式应用程序协调服务软件。在当前的Web软件开发中，多节点分布式的架构设计已经成为必然，那么如何保证架构中不同的节点所运行的环境，系统配置是相同的，就是一个非常重要的话题。一般情况下，我们会采用独立的第三方软件保存分布式系统中的全局环境信息以及系统配置信息，这样系统中的每一个节点在运行时就可以从第三方软件中获取一致的数据。也就是说通过这个第三方软件来协调分布式各个节点之间的环境以及配置信息。Kafka软件是一个分布式事件流处理平台系统，底层采用分布式的架构设计，就是说，也存在多个服务节点，多个节点之间Kafka就是采用ZooKeeper来实现协调调度的。Kafka软件中就内置了ZooKeeper的客户端，用于进行ZooKeeper的连接和通信。

其实，Kafka作为一个独立的分布式消息传输系统，还需要第三方软件进行节点间的协调调度，不能实现自我管理，无形中就导致Kafka和其他软件之间形成了耦合性，制约了Kafka软件的发展，所以从Kafka 2.8.X版本开始，Kafka就尝试增加了Raft算法实现节点间的协调管理，来代替ZooKeeper。不过Kafka官方不推荐此方式应用在生产环境中，计划在Kafka 4.X版本中完全移除ZooKeeper，让我们拭目以待。

二、kafka基础架构

在这里插入图片描述

2.1、broker

使用Kafka前，我们都会启动Kafka服务进程，这里的Kafka服务进程我们一般会称之为Kafka Broker或Kafka Server。因为Kafka是分布式消息系统，所以在实际的生产环境中，是需要多个服务进程形成集群提供消息服务的。所以每一个服务节点都是一个broker，而且在Kafka集群中，为了区分不同的服务节点，每一个broker都应该有一个不重复的全局ID，称之为broker.id，这个ID可以在kafka软件的配置文件server.properties中进行配置。

2.2、Controller

Kafka是分布式消息传输系统，所以存在多个Broker服务节点，但是它的软件架构采用的是分布式系统中比较常见的主从架构（Master - Slave），也就是说需要从多个Broker中找到一个用于管理整个Kafka集群的Master节点，这个节点，我们就称之为Controller。它的主要作用是在Zookeeper的帮助下管理和协调控制整个Kafka集群。如果在运行过程中，Controller节点出现了故障，那么Kafka会依托于ZooKeeper软件选举其他的节点作为新的Controller，让Kafka集群实现高可用。

2.3、Topic

Kafka是分布式消息传输系统，采用的数据传输方式为发布-订阅模式，也就是说由消息的生产者发布消息，消费者订阅消息后获取数据。为了对消费者订阅的消息进行区分，所以对消息在逻辑上进行了分类，这个分类我们称之为主题：Topic。消息的生产者必须将消息数据发送到某一个主题，而消费者必须从某一个主题中获取消息，并且消费者可以同时消费一个或多个主题的数据。Kafka集群中可以存放多个主题的消息数据。

为了防止主题的名称和监控指标的名称产生冲突，官方推荐主题的名称中不要同时包含下划线和点。

在这里插入图片描述

2.4、Partition

Kafka消息传输采用发布-订阅模式，所以消息生产者必须将数据发送到一个主题，假如发送给这个主题的数据非常多，那么主题所在broker节点的负载和吞吐量就会受到极大的考验，甚至有可能因为热点问题引起broker节点故障，导致服务不可用。一个好的方案就是将一个主题从物理上分成几块，然后将不同的数据块均匀地分配到不同的broker节点上，这样就可以缓解单节点的负载问题。这个主题的分块我们称之为：分区partition。默认情况下，topic主题创建时分区数量为1，也就是一块分区，可以指定参数--partitions改变。Kafka的分区解决了单一主题topic线性扩展的问题，也解决了负载均衡的问题。

topic主题的每个分区都会用一个编号进行标记，一般是从0开始的连续整数数字。Partition分区是物理上的概念，也就意味着会以数据文件的方式真实存在。每个topic包含一个或多个partition，每个partition都是一个有序的队列。partition中每条消息都会分配一个有序的ID，称之为偏移量：offset。

offset是消息在分区中的唯一标识，Kafka通过它来保证消息在分区内的顺序性，不过offset并不跨越分区，也就是说，Kafka保证的是分区有序而不是主题有序。

在这里插入图片描述

2.5、Replication

分布式系统出现错误是比较常见的，只要保证集群内部依然存在可用的服务节点即可，当然效率会有所降低，不过只要能保证系统可用就可以了。咱们Kafka的topic也存在类似的问题，也就是说，如果一个topic划分了多个分区partition，那么这些分区就会均匀地分布在不同的broker节点上，一旦某一个broker节点出现了问题，那么在这个节点上的分区就会出现问题，那么Topic的数据就不完整了。所以一般情况下，为了防止出现数据丢失的情况，我们会给分区数据设定多个备份，这里的备份，我们称之为：副本Replication。

Kafka支持多副本，使得主题topic可以做到更多容错性，牺牲性能与空间去换取更高的可靠性。

在这里插入图片描述

2.6、Leader & Follower

假设我们有一份文件，一般情况下，我们对副本的理解应该是有一个正式的完整文件，然后这个文件的备份，我们称之为副本。但是在Kafka中，不是这样的，所有的文件都称之为副本，只不过会选择其中的一个文件作为主文件，称之为：Leader(主导)副本，其他的文件作为备份文件，称之为：Follower（追随）副本。在Kafka中，这里的文件就是分区，每一个分区都可以存在1个或多个副本，只有Leader副本才能进行数据的读写，Follower副本只做备份使用。

当leader副本出现故障时，从follower副本中重新选举新的leader副本对外提供服务。生产者和消费者只与leader副本进行交互，而follower副本只负责消息的同步，很多时候follower副本中的消息相对于leader副本而言会有一定的滞后。

在这里插入图片描述

三、Kafka进阶

原文地址：https://blog.csdn.net/qq_43563660/article/details/143647017

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：什么是全域电商？有哪些电商代运营公司能做全域电商代运营？
下一篇：Hi3519DV500移植Yolov8

java ssm 新青年在线学习网学习网站学习系统学习平台源码jsp
一、项目简介本项目是一套基于SSM的新青年在线学习网，主要针对计算机相关专业的和需要项目实战练习的Java学习者。包含：项目源码、数据库脚本、软件工具等。项目都经过严格调试，确保可以运行！二、技术实现
阅读更多2024-11-22
Python中Pytorch入门讲解详解
使用torch.nn模块，我们可以轻松定义自己的神经网络。return xprint(net)通过本文的介绍，我们了解了PyTorch的基本操作、张量处理、自动求导机制、神经网络的构建和训练过程。Py
阅读更多2024-11-22
ChatGPT高级语音模式正在向Web网页端推出！
就在几小时前，OpenAI官方账号在社交媒体平台X上发布了一条“晦涩难懂”的帖子。
阅读更多2024-11-22
Redis 6.2 源码导读
Redis 是一个高性能的开源内存键值数据库，广泛用于缓存、会话管理和实时分析。Redis 6.2 版本引入了一些新特性和改进。
阅读更多2024-11-22
【FPGA开发】AXI-Full总线接口介绍、FPGA搭建仿真平台
AWID：写地址ID，这个信号是写地址组的标识标签。实际上，每个传输通道都有一个自己的ID。AWADDR：写地址，该地址给出了写突发事务中第一次传输的地址。AXI协议是基于突发的，主机驱动控制信息和事
阅读更多2024-11-22
以太坊交易处理全流程：数据采集、价格查询与问题解决
以太坊交易处理全流程：数据采集、价格查询与问题解决
阅读更多2024-11-22
深入解析QP算法及其Python实现
QP问题的目标是最小化一个二次目标函数，同时满足一组线性约束条件。其数学模型如下：minimizefx12xTQxcTxminimizefx21xTQxcTxAx≤bAx \leq bAx≤bExd
阅读更多2024-11-22
从定时任务到动态数据处理：实践 Spring + MyBatis 的高效开发之路20241120
在现代企业应用开发中，定时任务和动态数据处理已成为不可或缺的核心需求，尤其是在金融和电商领域。本文结合实践经验，从定时任务的配置到动态 SQL 的处理，再到异常捕获和优化，系统性地探讨如何基于 Spr
阅读更多2024-11-22
Docker是一个容器化平台注意事项
Docker容器是基于容器镜像的，而镜像是为特定的CPU架构（如x86、ARM等）构建的。Docker本身是一个容器化平台，它允许你将应用及其依赖打包到一个可移植的容器中，然后可以在任何安装了Dock
阅读更多2024-11-22
python爬虫数据（小说）
第九章壶娱中秋节
阅读更多2024-11-22

kafka

文章目录

一、Kafka入门

1.1、JMS

1.2、生产者-消费者模式

1.3、ZooKeeper

二、kafka基础架构

2.1、broker

2.2、Controller

2.3、Topic

2.4、Partition

2.5、Replication

2.6、Leader & Follower

三、Kafka进阶

相关文章