Kafka之资源容量评估

🕗 发布于 2024-10-14 23:37 kafka 分布式云原生

编写目的意义

应用场景为如果有租户需要部署kafka集群，并给出业务压力，根据业务评估kafka资源情况，如cpu 磁盘内存带宽等维度。为业务解决因资源过小故障和新业务部署提供了参考和计算方法，减少后续的维护成本

资源容量评估

本文档只提供计算逻辑和评估模型，具体业务资源需求，需要根据下面逻辑严格计算和评估。Kafka需要大量cpu和内存，消耗都比较大。下面通过场景驱动的方式来深度剖析 Kafka 生产级容量评估方案如何分析,申请和实施。

kafka容量评估需求场景分析

场景说明
假设kafka集群平均承受1亿次日请求量，每天单次请求1条日志，每天总共的日志条数是1亿1条=1亿条。
每条日志大小约 : 0.5k-10k。我们取10k。个别业务也有几十k的，极个别公司一条日志也有几MB的，比较少见。
每天总数据量：1亿条 10k≈10亿k（每天产生数据量约等于953G）
高峰期计算 : 953G * 2倍=1907G。（峰值每天1907G数据量。极端情况可以乘以数十倍，根据业务场景评估）

kafka容量评估之磁盘

磁盘容量规划考虑因素：

每天消息量
新增消息数；
消息保留时长；
平均消息大小；
副本数；
消息是否启用压缩。
预留磁盘空间

机械硬盘 or 固态硬盘SSD

两者主要区别如下：
SSD的优点是速度快，日常的读写比机械硬盘快几十倍上百倍。缺点是单位成本高，不适合做大容量存储。
HDD的优点是单位成本低，适合做大容量存储，但速度远不如SSD。

首先SSD硬盘性能好，主要是指的随机读写能力性能好，非常适合Mysql这样的集群，而SSD的顺序读写性能跟机械硬盘的性能是差不多的。机械硬盘性价比高，完全可以满足集群的使用。Kafka 写磁盘是顺序追加写的，所以对于 kafka 集群来说，使用普通机械硬盘就可以了，除非有极端场景需求。如果预算充足可考虑SSD。

一堆普通磁盘（JBOD）与磁盘整列（RAID) 选择：JBOD，性价比高，使用没有问题。RAID，如果预算充足就考虑，可以提供冗余的数据存储空间，天然负载均衡。

每台服务器需要多少块硬盘

Kafka的每条消息都保存在实际的物理磁盘中，消息默认会被broker保存一段时间之后清除。

假设业务要求每个topic保留3个副本，那么每天业务数据量为1907G * 2倍=3814G
假设消息保留3天，那么每天业务实际存量为3814G * 3倍=11442G
假设根据磁盘容量安全需要，需要有20%的磁盘冗余，那么kafka集群全部磁盘空间一共为11442G/80%=14302G (14T)

根据评估结果一共需要存储14T数据，我们可以设置3节点kafka集群，大约每台机器需要存储5T数据。

kafka容量评估之内存

jvm堆内存评估

Kafka 读写数据的流程主要都是基于os cache，所以基本上 Kafka 都是基于内存来进行数据流转的，这样的话要分配尽可能多的内存资源给os cache。

kafka的核心源码基本都是用 scala 和 java (客户端)写的，底层都是基于 JVM 来运行的，所以要分配一定的内存给 JVM 以保证服务的稳定性。对于 Kafka 的设计，并没有把很多的数据结构存储到 JVM 中，所以根据业界最佳实践经验给 JVM 分配6~10G就足够。

物理内存评估

如果要保证这所有 partition 的最新的 .log 文件的数据都在内存中，这样性能当然是最好的，但是没有必要所有的数据都驻留到内存中，只保证10%左右的数据在内存中就可以了，这样大概需要953G* 10% = 95G内存，外加上面分析的JVM的6G*3=18G，总共需要113G内存。还要保留一部分内存给操作系统和业务高峰使用，我们需要给业务高峰留30%的内存，这样总内存大约需要113/70%=161G内存，再加上给操作系统留出12G内存。故我们选择173G内存的服务器是非常够用了，我们可选用64G内存型号机器，可以考虑选用3台即可。

kafka容量评估之CPU

CPU Core分析

我们评估需要多少个 CPU Core，主要是看 Kafka 进程里会有多少个线程，线程主要是依托多核CPU来执行的，如果线程特别多，但是 CPU核很少，就会导致CPU负载很高，会导致整体工作线程执行的效率不高,性能也不会好。所以我们要保证CPU Core的充足，来保障系统的稳定性和性能最优。

Kafka不算是cpu消耗型服务，不是计算密集型系统，应尽可能追求多核而非高时钟频率。但是如果client端启用了消息压缩，除了必要的CPU资源外，broker端也有可能需要大量的CPU资源。

还有kafka是否启用SASL等机制认证，也会消耗cpu。一个 kafka 服务启动后，会有至少100多个线程在跑。

kafka对计算处理应用场景，客户端为了优化网络和磁盘空间，会对消息进行压缩。服务器需要对消息进行批量解压，设置偏移量，然后重新进行批量压缩，再保存到磁盘上。
最重要、最消耗时间的就是下面3种线程：
如果单台服务器给 32 个 cpu core，建议分为24+8两个部分。

num.io.threads=8负责写磁盘的线程数，默认8，整个参数值要占总核数的 50%。24 * 50% = 12核
num.replica.fetchers=1副本拉取线程数，默认1，这个参数占总核数的 50%的 1/3。24 * 50% * 33% =4核
num.network.threads =3 数据传输线程数，默认3，这个参数占总核数的 50%的 2/3。24 * 50% *66% = 8核

以上共计24核，剩余8核给其他线程使用

kafka容量评估之带宽

Kafka是在网络间传输大量数据的分布式数据管道，带宽资源很重要，并且容易成为瓶颈。
kafka支持多个消费者，造成流入和流出的网络流量不平衡，从而让情况变得更加复杂。集群复制和镜像也会占用网络流量。如果网络接口出现饱和，那么集群的复制出现延时就在所难免。
总结起来，对于带宽资源的规划，你需要考虑以下几个因素：

网络带宽：根据网络环境确定每秒处理的数据量。
带宽利用率：根据实际情况确定 Kafka 服务器使用的带宽比例。
预留资源：为了避免网络丢包，额外预留一部分带宽资源。
数据处理目标：根据业务需求确定每秒需要处理的数据量。
消息复制：如果消息需要复制，考虑复制的数量。
我们目前服务器绝大多数都是万兆带宽。根据文档场景假设，Kafka集群每天处理数据量约等于953G，平台一天每小时要处理40G的数据，平均每秒处理11M数据。
假设需要带宽冗余，使用30%带宽应对网络突发情况。那么实际要求带宽为11M/70%=16M/s
假设每天服务器给kafka进程的带宽资源为60%，那么单台kakfa服务器带宽需要：16M/60%=27M/s
带宽单位是bit比特，1byte=8bit。实际上百兆带宽100Mbps/8 =12.5M/s。千兆带宽实际上125Mb/s。万兆带宽实际上1250Mb/s。
综上所述，单台物理机万兆带宽足够kafka集群使用。Kafka集群仍可选3台做业务支撑。

原文地址：https://blog.csdn.net/qq_40477248/article/details/142869510

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：web扩展
下一篇：OpenGauss -产品概念

windows桌面便签小工具，便签软件哪个好用？
好用便签是一款支持多设备同步使用的便签软件，适用于Windows电脑、Mac、iOS、Android等平台。好用便签还可以设置提醒，并支持内容排序、搜索和自动筛选排序今天要做的事、未来要做的事、已经过
阅读更多2024-10-16
学习笔记-人工智能增强心电图作为心脏和非心脏疾病统一筛查工具的前景：一项紧急护理的探索性研究
学习笔记-人工智能增强心电图作为心脏和非心脏疾病统一筛查工具的前景：一项紧急护理的探索性研究
阅读更多2024-10-16
《Windows PE》5.1 导出表
该值也是一个指针，与AddressOfNames是一一对应关系，所不同的是，AddressOfNames指向的是字符串的指针数组，而AddressOfNameOrdinals则指向了该函数在Addre
阅读更多2024-10-16
腾讯云视立方·直播 SDK 个人信息保护规则
我们对《腾讯云视立方 SDK 隐私保护指引》进行了更新，更新内容主要为：名称修改为《腾讯云视立方·直播 SDK 个人信息保护规则》。梳理和重述了开发者使用 SDK 处理个人信息或使用 SDK 构建处理
阅读更多2024-10-16
获取vue实例
需要注意的是，无论通过哪种方式获取元素，如果元素为 vue 组件，则需要在子组件中使用 defineExpose 进行暴露。
阅读更多2024-10-16
windows下载配置CAS单点登录
版本对应jdk，根据自身环境下载对应版本的cas。
阅读更多2024-10-16
Gson 类（将 Java 对象序列化为 JSON 字符串，以及将 JSON 字符串反序列化为 Java 对象）
实现和接口来提供自定义的序列化和反序列化逻辑。
阅读更多2024-10-16
数据中心建设方案，大数据平台建设，大数据信息安全管理（各类资料原件）
第一章解决方案 1.1 建设需求 1.2 建设思路 1.3 总体方案信息安全系统整体部署架构图 1.3.1 IP准入控制系统 1.3.2 防泄密技术的选择 1.3.3 主机账号生命周期管理系统 1
阅读更多2024-10-16
Hadoop集群安装
workers文件里面记录的是集群主机名。hdfs-default.xml与hdfs-site.xml的功能是一样的，如果在hdfs-site.xml里没有配置的属性，则会自动会获取hdfs-defa
阅读更多2024-10-16
前端小技巧-网页点击动画效果
【代码】前端小技巧-网页点击动画效果。
阅读更多2024-10-16