kafka-clients之ProducerConfig

🕗 发布于 2024-11-10 09:59 kafka 分布式

在Kafka 2.4.0版本中，ProducerConfig类提供了许多配置参数，用于控制生产者行为。这些参数可以调整Kafka生产者的性能、可靠性和行为。以下是每一个参数的详细说明：

基本配置

bootstrap.servers
- 描述：Kafka集群的地址列表，用于初始化与Kafka集群的连接。
- 默认值：无
- 示例：localhost:9092,localhost:9093
client.id
- 描述：标识生产者的ID，便于在服务端记录日志或追踪。
- 默认值：空
- 示例：my-producer-1
key.serializer
- 描述：将消息的键序列化为字节的类，必须是org.apache.kafka.common.serialization.Serializer的实现。
- 默认值：无
- 示例：org.apache.kafka.common.serialization.StringSerializer
value.serializer
- 描述：将消息的值序列化为字节的类，必须是org.apache.kafka.common.serialization.Serializer的实现。
- 默认值：无
- 示例：org.apache.kafka.common.serialization.StringSerializer

分区与负载均衡

partitioner.class
- 描述：定义消息发送到Kafka主题时分区的策略，默认使用内置的分区器，也可以自定义。
- 默认值：org.apache.kafka.clients.producer.internals.DefaultPartitioner
- 示例：自定义类如com.example.MyPartitioner
acks
- 描述：控制生产者发送消息的确认级别。
  - 0：生产者不等待服务器的响应，消息有可能丢失。
  - 1：Leader副本确认消息后返回ack。
  - all：所有副本都确认消息后返回ack，提供最高的持久性保证。
- 默认值：1
- 示例：all
retries
- 描述：发送消息失败时生产者的重试次数。
- 默认值：2147483647 (无限重试)
- 示例：5
retry.backoff.ms
- 描述：两次重试之间的时间间隔（毫秒）。
- 默认值：100
- 示例：200

性能调优

batch.size
- 描述：生产者发送给同一分区的消息批次大小，以字节为单位。达到批次大小后会立即发送消息，即使linger.ms没有达到。
- 默认值：16384（16 KB）
- 示例：32768（32 KB）
linger.ms
- 描述：生产者在发送消息之前等待的时间，以增加批量大小。即使没有达到batch.size，生产者也会在达到linger.ms后发送消息。
- 默认值：0
- 示例：5
buffer.memory
- 描述：生产者用于缓冲消息的内存总量（字节）。
- 默认值：33554432（32 MB）
- 示例：67108864（64 MB）
compression.type
- 描述：消息的压缩类型。
  - none：不压缩。
  - gzip：使用Gzip压缩。
  - snappy：使用Snappy压缩。
  - lz4：使用LZ4压缩。
  - zstd：Kafka 2.1.0 引入的Zstandard压缩。
- 默认值：none
- 示例：gzip
max.in.flight.requests.per.connection
- 描述：在单个连接上生产者可以发送但尚未确认的最大请求数。较低的值可以减少重试时消息的顺序错误。
- 默认值：5
- 示例：1

可靠性与错误处理

enable.idempotence
- 描述：是否启用幂等性。启用后，Kafka保证每条消息只会写入一次，从而避免重复消息。
- 默认值：false
- 示例：true
transactional.id
- 描述：如果需要使用事务，则必须设置该参数，用于唯一标识一个事务性生产者。
- 默认值：空
- 示例：my-transactional-producer
delivery.timeout.ms
- 描述：消息发送超时时间，包含重试时间。超时后消息将被丢弃。
- 默认值：120000（2分钟）
- 示例：300000（5分钟）
- 注意该配置必须符合下面的要求，否责会抛出配置异常：delivery.timeout.ms should be equal to or larger than linger.ms + request.timeout.ms

Caused by: org.apache.kafka.common.config.ConfigException: delivery.timeout.ms should be equal to or larger than linger.ms + request.timeout.ms
at org.apache.kafka.clients.producer.KafkaProducer.configureDeliveryTimeout(KafkaProducer.java:501)
at org.apache.kafka.clients.producer.KafkaProducer.<init>(KafkaProducer.java:392)
... 3 more

request.timeout.ms
- 描述：生产者等待服务器响应的最大时间，超时后重试。
- 默认值：30000（30秒）
- 示例：60000（1分钟）
max.block.ms
- 描述：在缓冲区已满的情况下，生产者阻塞的最大时间。超过该时间将抛出异常。
- 默认值：60000（1分钟）
- 示例：300000（5分钟）

其他配置

max.request.size
- 描述：生产者发送的单个请求的最大大小，单位为字节。
- 默认值：1048576（1 MB）
- 示例：2097152（2 MB）
connections.max.idle.ms
- 描述：生产者的空闲连接关闭时间。
- 默认值：540000（9分钟）
- 示例：300000（5分钟）
send.buffer.bytes
- 描述：TCP发送缓冲区大小，单位为字节。如果设置为-1，则使用操作系统默认设置。
- 默认值：131072（128 KB）
- 示例：65536（64 KB）
receive.buffer.bytes
- 描述：TCP接收缓冲区大小，单位为字节。如果设置为-1，则使用操作系统默认设置。
- 默认值：32768（32 KB）
- 示例：65536（64 KB）

安全配置

security.protocol
- 描述：Kafka客户端与Broker之间通信的协议。
  - PLAINTEXT：不加密。
  - SSL：SSL加密。
  - SASL_PLAINTEXT：使用SASL认证但不加密。
  - SASL_SSL：使用SASL认证并加密。
- 默认值：PLAINTEXT
- 示例：SSL
ssl.keystore.location
- 描述：SSL密钥库的文件路径，用于客户端认证。
- 默认值：空
- 示例：/path/to/keystore.jks
ssl.truststore.location
- 描述：SSL信任库的文件路径，用于验证Broker的SSL证书。
- 默认值：空
- 示例：/path/to/truststore.jks
sasl.mechanism
- 描述：SASL身份验证机制。
  - GSSAPI：Kerberos。
  - PLAIN：用户名/密码认证。
  - SCRAM-SHA-256或SCRAM-SHA-512：更安全的用户名/密码认证。
- 默认值：GSSAPI
- 示例：PLAIN

这些参数能够帮助配置Kafka生产者的各个方面，从基本的连接配置到性能优化、安全设置等，确保生产者能够根据应用的需求高效、安全地发送消息。

消息丢弃场景

极端情况下，59秒时消息阻塞获取到资源了，进入缓冲区。但是一直没能发送成功，假设重试次数为无限大。那么这条消息会在2分钟后丢弃

即默认配置下：大约 3 分钟后会导致消息丢失。下面是详细的原因分析。

详细分析

**max.block.ms = 59 秒**
- 假设在第 59 秒时，send() 操作成功地获取到缓冲区资源，并将消息放入缓冲区，从而避免 max.block.ms 的超时触发。
- 由于已经成功进入缓冲区，消息的后续发送过程不再受 max.block.ms 影响，而是转向 delivery.timeout.ms 的控制。
**delivery.timeout.ms = 2 分钟**
- 在消息进入缓冲区后，生产者会开始尝试将其发送到 Kafka 集群。
- 假设网络异常或集群不可用，生产者会反复重试发送该消息。即使重试次数无限大，delivery.timeout.ms 限制了整个发送过程的最大时间。
- 因此，在消息进入缓冲区的 2 分钟后，即大约第 3 分钟（59 秒 + 2 分钟）时，delivery.timeout.ms 超时将会触发，导致消息被丢弃，并向回调抛出 TimeoutException 或相关异常。

指数回退配置案例

指数退避公式

Kafka客户端使用指数退避策略，但不会将延迟时间翻倍。相反，它会增加一个固定值的时间，使其随着重试次数线性上升。可以使用公式：

wait_time=min⁡(reconnect.backoff.ms×(attempt+1),reconnect.backoff.max.ms)

其中：

attempt 是当前的重试次数，从0开始。

逐步退避的计算过程

以下是每次重试时的等待时间，直到达到最大值1000ms为止。

第1次重试（attempt = 0）：50 ms × (0 + 1) = 50 ms
第2次重试（attempt = 1）：50 ms × (1 + 1) = 100 ms
第3次重试（attempt = 2）：50 ms × (2 + 1) = 150 ms
第4次重试（attempt = 3）：50 ms × (3 + 1) = 200 ms
第5次重试（attempt = 4）：50 ms × (4 + 1) = 250 ms
第6次重试（attempt = 5）：50 ms × (5 + 1) = 300 ms
…
第20次重试（attempt = 19）：50 ms × (19 + 1) = 1000 ms（已达最大值）

从第20次重试开始，等待时间将保持在1000毫秒，不再增长。

说明

这种递增方式可有效避免高频率重试引起的资源消耗，同时通过指数方式尽量缩短恢复时间。在高并发、网络不稳定或Kafka服务偶尔中断的情况下，合理配置这两个参数可以显著改善系统的恢复性。

原文地址：https://blog.csdn.net/u010597819/article/details/143640025

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：【图像压缩感知】论文阅读：Self-supervised Scalable Deep Compressed Sensing
下一篇：STM32的定时器外部时钟引脚通常接的是HSE吗？

关于 Oracle Database Express Edition 的功能和安装
Oracle Database Express Edition，简称 Oracle Database XE。是一个免费的版本，主要用于培训和一些功能要求比较简单，又需要免费分发的场景。要具体查看XE版
阅读更多2024-11-13
【ORACLE战报】2024年10月OCP考试战报
网络技术：华为HCIA/ HCIP/HCIE；思科CCNA/CCNP/CCIE。*安全认证：CISP体系/CISSP/ CISA；*数据库：ORACLE OCP/ OCM；*管理类：PMP 项目管理；
阅读更多2024-11-13
【JAVA毕业设计】基于Vue和SpringBoot的服装销售平台
本站是一个B/S模式系统，采用Spring Boot框架作为开发技术，MYSQL数据库设计开发，充分保证系统的稳定性。系统具有界面清晰、操作简单，功能齐全的特点，使得服装销售平台管理工作系统化、规范化
阅读更多2024-11-13
golang笔记-slice（切片）
它是基于数组类型做了一层封装，支持自动扩容，拥有相同元素类型的可变长度的序列。切片是引用类型，内部结构包含地址、长度和容量，切片一般用于快速的操作一块数据集合。
阅读更多2024-11-13
微信小程序_小程序视图与逻辑_day3
A. 知道如何实现页面之间的导航跳转B. 知道如何实现下拉刷新效果C. 知道如何实现上拉加载更多效果D. 知道小程序中常用的生命周期
阅读更多2024-11-13
接口压力测试、性能测试工具
进行接口的简单性能和压力测试的小工具
阅读更多2024-11-13
npm list @types/node 命令用于列出当前项目中 @types/node 包及其依赖关系
npm list @types/node 命令用于列出当前项目中 @types/node 包及其依赖关系
阅读更多2024-11-13
Spring Boot编程训练系统：用户体验设计与实现
管理员功能有个人中心，用户管理，题库资源管理，用户交流，试卷管理，留言板管理，试题管理，系统管理，考试管理。6、网络上的客户端和服务器可以用来编程任何独立的编程环境，也有中国，GB2312，BIG5，
阅读更多2024-11-13
DB-GPT系列（四）：DB-GPT六大基础应用场景part1
我们上传的文档其实是上传到DB-GPT运行的服务器上（例如公司服务器），本质上其实还是“本地运行”，并不会存在数据泄露的风险。Chat Knowledge（知识库对话）借助RAG实现私有知识库问答，
阅读更多2024-11-13
HMSC联合物种分布模型在群落生态学中的贝叶斯统计分析
本次内容将以Hmsc包为对象，从群落生态学研究进展入手，逐步介绍Hmsc包对于群落生态学假说的解读、Hmsc包开展单物种和多物种分析的技术细节及Hmsc包的实际应用（具体案例）。将通过模型定义、拟合、
阅读更多2024-11-13