Kafka 源码分析(一) 日志段

🕗 发布于 2025-01-22 06:06 kafka 分布式

首先我们的 kafka 的消息本身是存储在日志段中的, 对应的源码是下面这段代码:

class LogSegment private[log] (val log: FileRecords,
                               val lazyOffsetIndex: LazyIndex[OffsetIndex],
                               val lazyTimeIndex: LazyIndex[TimeIndex],
                               val txnIndex: TransactionIndex,
                               val baseOffset: Long,
                               val indexIntervalBytes: Int,
                               val rollJitterMs: Long,
  val time: Time) extends Logging { … }

一个日志段包含消息日志文件、位移索引文件、时间戳索引文件、已中止事务索引文件等。这里的 FileRecords 就是实际保存 Kafka 消息的对象。

索引文件通常是以.index 为结尾的:

.offsetIndex 我们可以根据位移索引文件定位到记录在那个log 文件，
.timeindex：是时间索引文件，是用来帮助Kafka通过时间戳来查找对应记录的位移信息。

在这里插入图片描述

baseOffset 表示基础偏移量, 对应着文件名称, 注意这个开始位移在一开始就是固定的。
indexIntervalBytes 值其实就是 Broker 端参数 log.index.interval.bytes 值，它控制了日志段对象新增索引项的频率。默认情况下一般需要达到4kb 才会创建新的索引项
rollJitterMs 是日志段对象新增倒计时的“扰动值”。因为目前 Broker 端日志段新增倒计时是全局设置，这就是说，在未来的某个时刻可能同时创建多个日志段对象，这将极大地增加物理磁盘 I/O 压力。有了 rollJitterMs 值的干扰，每个新增日志段在创建时会彼此岔开一小段时间，这样可以缓解物理磁盘的 I/O 负载瓶颈。

这个扰动值含义是当前避免同时多个线程同时向磁盘中写入对应的数据

关于这个LogSegment 是存在与之相关的方法的, 主要有三个方法, 分别是对应的 append 方法, read 方法，以及对应的 recover 方法。

首先我们看一下对应的append 函数

def append(largestOffset: Long,
             largestTimestamp: Long,
             shallowOffsetOfMaxTimestamp: Long,
             records: MemoryRecords): Unit;

这个函数首先会判断当前日志段时候为空, 如果为null, 我们就需要写入对应的最大时间戳
确保对应的最大位移值是正确的, 如果不正确的话是不给写入的
执行真正的写入操作
更新最大时间戳, 最大的位移值
更新写入的字节数量

和日志段相关的第二个相关的操作是 read 函数, 这个函数接受了四个参数, 分别是:

要读取的第一条消息的位移
能读取消息的最大位移数量
能读取的最大文件位置
是否允许消息体过大的时候至少返回对应的消息

和日志段相关的第三个操作是 recover 函数，在消息系统中, 日志被分成了多个日志段, 每个日志段包含一定数量的消息，这些日志消息被保存在磁盘上面，

recover 方法的作用是确保在 Broker 启动时，能够正确地从磁盘加载日志段数据，并将其恢复到一个一致的状态，以便后续的读写操作能够正常进行。

原文地址：https://blog.csdn.net/user_2022_5_1/article/details/145268979

免责声明：本站文章内容转载自网络资源，如侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：开源鸿蒙开发者社区记录
下一篇：【三维分割】Gaga：通过3D感知的 Memory Bank 分组任意高斯

Swift语言的操作系统
Swift是苹果公司于2014年发布的一种强类型、编译型的编程语言。与Objective-C相比，Swift更加简洁、安全，提供了许多现代化的编程特性，如类型推断、闭包、元组等。Swift的设计目标是
阅读更多2025-01-22
C# 委托和事件(事件)
回调(callback）函数是Windows编程的一个重要部分。C或C++编程背景，在许多Windows API中使用过回调。VB添加AddressOf关键字后，开发人员就可以利用以前一度受到限制的A
阅读更多2025-01-22
AI赋能Flutter开发：ScriptEcho助你高效构建跨端应用
Flutter凭借其“一次编写，多端运行”的特性，成为众多开发者的首选跨端开发框架。然而，即使Flutter拥有快速开发的优势，开发者在实际项目中仍然可能面临效率瓶颈，例如UI界面搭建耗时、代码重复编
阅读更多2025-01-22
【Rabbitmq】Rabbitmq高级特性-发送者可靠性
首先通过配置可以让交换机、队列、以及发送的消息都持久化。这样队列中的消息会持久化到磁盘，MQ重启消息依然存在。RabbitMQ在3.6版本引入了LazyQueue，并且在3.12版本后会称为队列的默认
阅读更多2025-01-22
C++ random_shuffle函数：从兴起到被替代
这个函数需要一个随机数生成器，这个生成器必须满足UniformRandomBitGenerator的要求。利用提供的随机数生成器，对序列中的元素进行随机排列。与相比，能够更灵活地使用C++11及更高版
阅读更多2025-01-22
python高级加密算法AES对信息进行加密和解密
（高级加密标准）是一种广泛使用的对称加密算法，它以字节为单位处理数据，将明文分组加密成密文。AES算法的核心在于一个轮函数，该函数会对数据执行多次变换，包括字节代换、行移位、列混合和轮密钥加。这些操作
阅读更多2025-01-22
docker安装consul并启动的详细步骤
安装docker以后，你可以尝试安装各类容器，如consul。
阅读更多2025-01-22
python md5加密
这段代码定义了一个md5_encryption函数，它接受一个字符串作为参数，对该字符串进行MD5加密，然后返回加密后的十六进制字符串。在调用函数时，你可以传入任何需要加密的数据，并打印出其MD5加密
阅读更多2025-01-22
数据结构-二叉树
7、双亲节点或父节点：若一个节点含有子节点，则这个节点称为其子节点的父节点。//先序创建：根左右初始化函数，就是把树的所有节点存进去的过程。//中序创建：左根右初始化函数，就是把树的所以节
阅读更多2025-01-22
django使用踩坑经历
使用Django过程中的一些踩坑经历
阅读更多2025-01-22

Kafka 源码分析(一) 日志段

相关文章