kafka入门

🕗 发布于 2024-10-18 23:53 kafka 分布式

一、快速了解kafka

1、MQ的作用

MQ：MessageQueue，消息队列。队列，是一种FIFO先进先出的数据结构。消息则是跨进程传递的数据。一个典型的MQ系统，会将消息由生产者发送到MQ进行排队，然后根据一定的顺序交由消息的消费者进行处理。QQ和微信就是典型的MQ，最不过其对接的使用对象是人，而kafka需要对接的使用对象是应用程序。

MQ的主要作用主要有以下三个方面：

异步：

举例：快递员发快递，直接到客户家效率会很低，引入菜鸟驿站之后，快递员只需要把快递放到菜鸟驿站，就可以继续发其他快递去了，客户再按照自己的时间安排去菜鸟驿站取快递。

作用：异步能提高系统的响应速度、吞吐量。

解耦：

例子：《Thinking in JAVA》很经典，但都是些英文，不容易读懂，所以需要编辑社，将文章翻译成其他语言，这样就可以完成英语与其他语言的交流。

作用：

1. 服务之间进行解耦，才可以减少服务之间的影响。提高系统整体的稳定性以及可扩展性。

2. 解耦后可以实现数据分发，生产者发送一个消息后，可以由一个或者多个消费者进行消费，并且消费者的增加或者减少对生产者没有影响。

削峰：

例子：长江每年都会涨水，但是下游出水口的速度是稳基本定的，所以会涨水。引入三峡大坝后，可以把水储存起来，下游慢慢排水。

作用：以稳定的系统资源应对突发的流量冲击。

2、kafka产品介绍

官网地址：Apache Kafka

Apache Kafka最初由LinkedIn开发并于2011年开源，主要解决大规模数据的实时流式处理和数据管道问题。

kafka是一个分布式的发布-订阅消息系统，可以快速地处理高吞吐量的数据流，并将数据实时地分发到多个消费者中。kafka消息系统有多个broker（服务器）组成，这些broker可以在多个数据中心之间分布式部署，以提供高可用性和容错性。

kafka使用高效的数据存储和管理技术，能够轻松地处理TB级别的数据量。其优点包括高吞吐量、低延迟、可扩展性、持久性和容错性等。

kafka在企业级应用中被广泛应用，包括实时流处理、日志聚合、监控和数据分析等方面。同时，kafka还可以与其他大数据工具集成，如Hadoop、Spark、Storm等，构建一个完整的数据处理生态系统。

3、kafka的特点

kafka最初诞生于LinkedIn公司，其核心作用就是用来收集并处理庞大复杂的应用日志。一个典型的日志聚合应用场景如下：

业务场景决定了产品的特点。所以kafka最典型的产品特点有以下几点：

1. 数据吞吐量很大：需要能够快速收集各个渠道的海量日志

2. 集群容错性高：允许集群中少量节点崩溃

3. 功能不需要太复杂：kafka是设计目标是高吞吐、低延迟和可扩展，主要关注消息传递而不是消息处理。所以，kafka并没有支持死信队列、顺序消息等高级功能。

4. 允许少量数据丢失：在海量的应用日志中，少量的日志丢失是不会影响结果的。所以kafka的设计初衷是允许少量数据丢失的。当然kafka本身也在不断优化数据安全问题。

二、快速上手kafka

1、快速搭建单机服务

kafka的运行环境非常简单，只要有JVM虚拟机就可以进行。以下以安装了JDK1.8的CentOS为例。

前提：安装jdk1.8

下载kafka：

下载地址：Apache Kafka

关于kafka的版本，前⾯的2.13是开发kafka的scala语⾔的版本，后⾯的3.8.0是kafka应⽤的版本。 Scala是⼀种运⾏于JVM虚拟机之上的语⾔。在运⾏时，只需要安装JDK就可以了，选哪个Scala版本没有区别。但是如果要调试源码，就必须选择对应的Scala版本。因为Scala语⾔的版本并不是向后兼容的。

下载zookeeper：

下载地址：Apache ZooKeeper

Zookeeper的版本并没有强制要求，这里选择了3.8.4版本。

安装过程记录：

通过以下命令分别将三个工具包解压到 /usr/local 路径下

tar -zxvf jdk-8u171-linux-x64.tar.gz -C /usr/local
tar -zxvf kafka_2.13-3.8.0.tgz -C /usr/local
tar -zxvf apache-zookeeper-3.8.4.tar.gz -C /usr/local

kafka的安装程序中⾃带了Zookeeper，可以在kafka的安装包的libs⽬录下查看到zookeeper的客户端jar 包。但是，通常情况下，为了让应⽤更好维护，我们会使⽤单独部署的Zookeeper，⽽不使⽤kafka⾃带的Zookeeper。

启动Kafka之前需要先启动Zookeeper 这⾥就⽤Kafka⾃带的Zookeeper。启动脚本在bin⽬录下。

首先进入kafka的目录，然后启动zookeeper服务：

nohup bin/zookeeper-server-start.sh config/zookeeper.properties &

nohub：程序执行的时候不占用控制台，让其后台启动

注意下脚本是不是有执⾏权限。从nohup.out中可以看到zookeeper默认会在2181端⼝启动。通过jps指令看到⼀个QuorumPeerMain进程，确定服务启动成功。

启动Kafka

nohup bin/kafka-server-start.sh config/server.properties &

启动完成后，使⽤jps指令，看到⼀个kafka进程，确定服务启动成功。服务会默认在9092端⼝启动。

至此，服务启动完成。

2、理解kafka的消息

简单收发消息：

Kafka的基础⼯作机制是消息发送者可以将消息发送到kafka上指定的topic，⽽消息消费者，可以从指定的 topic上消费消息。

创建topic：

kafka的bin目录做了大量的封装。

三、理解kafka的集群工作原理

1、搭建kafka集群

2、理解服务端的topic

3、理解消费者组

四、章节总结：kafka集群

原文地址：https://blog.csdn.net/linping_wong/article/details/143061992

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：爬虫逆向-js进阶(续写，搭建网站)
下一篇：PHP 表达式 Exception::__toString

Redis登录校验
第一个拦截器只是确保一切请求都要进行token刷新的大动作第二个拦截器从ThreadLocal中获取user用户。
阅读更多2024-10-19
期货交易程序化，哪些API可供选择及如何使用？
期货交易程序化依赖CTP、飞马等多种API，它们各有特点与适用场景，支持不同开发语言。使用时明确策略、测试、控风险、合规并做好技术准备是成功关键。
阅读更多2024-10-19
分治算法的基本知识记录
简单记录分治算法的基本知识
阅读更多2024-10-19
家里有宠物想去异味，希喂、米家、范罗士宠物空气净化器哪款去异味好？
不过，需要指出的是，米家作为小米的生态链品牌，其产品性能并非由小米创始人雷军直接监督，因而和小米自行生产的产品在性能上有所不同。而且使用的是1800转/秒的高转速直流无刷电机，搭配后弯涡轮式叶片，形成
阅读更多2024-10-19
韩信走马分油c++
韩信走马分油c++
阅读更多2024-10-19
机器学习核心：监督学习与无监督学习
监督学习与无监督学习
阅读更多2024-10-19
django5入门【01】环境配置
⭐前提：安装了annaconda（python版本管理工具），如果没有安装，强烈建议安装一下！！！
阅读更多2024-10-19
推荐一款流量录制回放工具：JVM-sandbox-repeater！
是一个基于采用Java来实现的流量录制回放工具，或者可以理解为它是一个基于Java虚拟机的插件，可以直接运行中JVM中，无需对目标应用程序进行任何修改。它可以在运行时自动拦截和记录 Java 应用程序
阅读更多2024-10-19
Partition Exchange PK UK 导致分区交换慢
WITH VALIDATION 不是只看分区键对不对吗，怎么还看PK UK了.
阅读更多2024-10-19
基于开源IM即时通讯框架MobileIMSDK：RainbowChat v11.7版已发布
基于开源IM即时通讯框架MobileIMSDK：RainbowChat v11.7版已发布
阅读更多2024-10-19