从底层原理上解释 ClickHouse 的索引

🕗 发布于 2024-09-21 13:46 clickhouse 大数据

ClickHouse 是一款高性能的列式数据库，它通过列式存储、稀疏索引、MergeTree 引擎等技术实现了极高的查询效率和吞吐量。索引是数据库中提高查询效率的关键机制之一。为了深入了解 ClickHouse 中的索引实现机制，我们将从底层原理、关键数据结构以及 ClickHouse 的源代码来解释其索引设计。

1. ClickHouse 的索引机制概览

ClickHouse 的索引与传统数据库（如 MySQL、PostgreSQL 等）的 B-Tree 或哈希索引不同，它主要依赖于稀疏索引（sparse index）和分段索引（granularity index）来加速查询。由于 ClickHouse 的设计初衷是为大规模分析型查询场景服务，所以它的索引机制更适合扫描大批量数据，并通过减少不必要的磁盘 IO 来加速查询。

1.1 基础概念

列式存储：ClickHouse 使用列式存储，也就是说数据按列而不是按行存储。在列式存储中，相同列的数据集中存储，使得读取少数列时非常高效。
稀疏索引（Sparse Index）：ClickHouse 使用的是一种稀疏索引，意味着它不会为每条记录都维护索引，而是根据数据块（block）来构建索引。每个数据块保存若干行（通常是 8192 行），索引只保存每个块的起始值。
数据分段（Granularity）：ClickHouse 采用了分段的概念，数据被分割成多个段，每个段内数据排序，并且有自己的索引。每个段的大小决定了查询时需要扫描的数据量。

2. MergeTree 引擎中的索引机制

MergeTree 是 ClickHouse 中最重要的存储引擎之一。该引擎不仅支持高效的读写性能，还支持自动的分区和合并操作。

2.1 主键索引（Primary Key Index）

在 MergeTree 表中，主键索引并不是传统意义上的唯一约束，而是用于优化查询的排序键。主键的索引由 稀疏索引 和 段内数据排序 组成。当表使用 ORDER BY 语句时，ClickHouse 会根据排序键为每个数据段构建稀疏索引。

原理：
- 数据写入时按照主键排序（如果指定了 ORDER BY），每次插入新的数据块时，ClickHouse 会在磁盘上生成新的稀疏索引。
- 每个稀疏索引条目对应一个数据块中的首行，索引条目记录该块的首个主键值以及其在数据文件中的位置。
- 查询时，ClickHouse 使用索引跳过不相关的块，减少扫描的数据量。

2.2 索引的存储结构

主键索引会被存储在 .idx 文件中，索引文件以稀疏的方式记录每个数据块的起始位置。

索引存储结构：
- 数据写入时，ClickHouse 为每个数据块生成主键索引。每个索引条目包含该块内数据的首个主键值以及相应的偏移量。
- 主键值可以由多个列组成，ClickHouse 会为多列组合生成复合主键索引。

示例：创建 MergeTree 表

CREATE TABLE events
(
    event_date Date,
    event_time DateTime,
    user_id UInt32,
    event_type String
) 
ENGINE = MergeTree 
ORDER BY (event_date, user_id);

在上面的例子中，ORDER BY (event_date, user_id) 表示 ClickHouse 会对表中的数据根据 event_date 和 user_id 进行排序，并为这些列创建主键索引。在查询时，ClickHouse 会利用这些主键索引来加速查询。

2.3 段式存储与索引

ClickHouse 将数据分为多个段（part），每个段包含一定数量的行（默认 8192 行）。每个段内的数据按照指定的排序键（即 ORDER BY 中的列）进行排序，并为每个段创建稀疏索引。

每个段的索引结构：
- 索引文件（.idx）：稀疏索引，记录每个数据段中首行的主键值。
- 数据文件（.bin）：实际存储的列数据，列式存储的文件按列分开存储。

索引文件的结构：

.index file structure:
+--------------------+------------------+----------------+
| Primary Key Value   | Block Start Row  | Block Position |
+--------------------+------------------+----------------+

当执行查询时，ClickHouse 通过索引文件定位数据块，然后只扫描与查询条件相关的块，从而极大地提升查询效率。

3. ClickHouse 的二级索引（Data Skipping Indexes）

除了主键索引，ClickHouse 还支持 Data Skipping Index，也就是所谓的“跳过索引”。这种索引允许 ClickHouse 在查询时跳过那些不相关的块，而不需要扫描每一行。这在列上具有高度稀疏性或数据分布不均匀的场景下非常有用。

常用的跳过索引类型：

minmax 索引：记录每个数据段的最小值和最大值。对于范围查询，例如 WHERE column > x AND column < y，ClickHouse 可以跳过不在范围内的块。
```
ALTER TABLE events ADD INDEX minmax_index 
(user_id) TYPE minmax GRANULARITY 8192;
```
bloom_filter 索引：用于高基数的数据列，例如字符串或 ID 字段。布隆过滤器可以快速过滤掉不可能匹配的数据块。
```
ALTER TABLE events ADD INDEX bloom_filter_index 
(event_type) TYPE bloom_filter GRANULARITY 8192;
```
tokenbf_v1 索引：一种适用于包含大量词汇的字段（如文本）的布隆过滤器索引，它能够对包含某个词的查询进行加速。
```
ALTER TABLE events ADD INDEX tokenbf_index 
(event_type) TYPE tokenbf_v1(1000) GRANULARITY 8192;
```

跳过索引的实现原理

当进行查询时，ClickHouse 会首先检查跳过索引，确定哪些数据块可以跳过，而不需要进行全表扫描。例如，在范围查询中，ClickHouse 可以通过 minmax 索引检查每个数据块的最小值和最大值，并直接跳过不满足条件的块。

4. ClickHouse 索引的底层代码分析

我们来看一下 ClickHouse 源代码中关于索引的部分，尤其是稀疏索引和数据跳过索引的实现。

4.1 稀疏索引实现

稀疏索引的实现位于 MergeTreeData 类中，它管理了 MergeTree 表中的数据结构和索引创建过程。稀疏索引的构建逻辑主要通过 MergeTreeIndexGranularity 类来实现。

在 MergeTreeDataWriter 类中，数据块的写入和索引创建的关键代码如下：

// MergeTreeDataWriter.cpp
void MergeTreeDataWriter::writeBlock(const Block & block, ... )
{
    // 写入数据块
    writer.write(block);
    
    // 构建稀疏索引
    index_builder->add(block); 
}

在写入数据块时，index_builder 会为每个数据块生成一个索引条目。索引条目中包含了该数据块的起始主键值和数据文件中的位置。

4.2 minmax 索引的实现

minmax 索引是一种非常简单的跳过索引，它记录了每个数据块的最小值和最大值。在查询时，ClickHouse 可以通过检查 minmax 索引来跳过不符合条件的块。

minmax 索引的创建和检查逻辑位于 MergeTreeDataPart 类中，代码如下：

// MergeTreeDataPart.cpp
bool MergeTreeDataPart::minmax_index_check(const Field & value) const
{
    // 检查当前块的最小值和最大值
    return (value >= min_value && value <= max_value);
}

在查询执行时，ClickHouse 会检查 minmax 索引，跳过那些不在查询范围内的块。

5. 总结

ClickHouse 的索引机制主要依赖于 稀疏索引 和 跳过索引，这些索引能够大幅减少查询时的数据扫描量。不同于传统数据库的行式存储索引，ClickHouse 的索引设计更加适合批量分析场景，利用稀疏索引减少 IO，通过跳过索引加速查询。底层实现中，MergeTree 系列存储引擎通过维护稀疏索引来定位数据块，同时 minmax 和 bloom_filter 等跳过索引进一步优化查询性能。

通过这些索引机制，ClickHouse 能够在大规模数据处理场景下保持极高的查询性能，同时支持复杂的查询和分析操作。

原文地址：https://blog.csdn.net/goTsHgo/article/details/142384654

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：pytorch实现RNN网络
下一篇：简明linux系统编程--互斥锁--TCP--UDP初识

数据中台建设（六）—— 数据开发-提取数据价值
数据开发涉及的产品能力主要包括三部分：离线开发、实时开发和算法开发。
阅读更多2024-09-21
vue项目引入比较独特的字体的方法
.ttf格式的字体文件在vue项目中的使用
阅读更多2024-09-21
es的封装
es他使用的网络协议时http，序列化协议用的json。而es客户端给我们提供的三个接口中，我们需要填的就是一个请求正文，所以我们主要是针对这个正文json的一个组织。es基本请求格式提示：以下是本篇
阅读更多2024-09-21
MySQL中几种常见的行格式
动态格式会根据行中数据的实际大小动态地调整行的存储方式。如果行中的某个字段是变长的，那么这个字段的实际数据将被存储在行的末尾，而不会在行的开头占用固定的空间。这种格式适用于所有列都是固定长度的情况，可
阅读更多2024-09-21
通信工程学习：什么是LMDS本地多点分配系统
通信工程学习：什么是LMDS本地多点分配系统
阅读更多2024-09-21
Sentinel组件学习
本篇博文是sentinel组件的学习科普文章，主要讲述了sentinel的作用，springCoud整合，以及sentinel dashboard安装和使用，以及流控规则、熔断规则、热点规则的配置和使
阅读更多2024-09-21
【PyTorch】Tensor（张量）介绍
Tensor 中文为张量。张量的意思是一个，它是标量、向量、矩阵的高维扩展。标量可以称为 0 维张量，向量可以称为 1 维张量，矩阵可以称为 2 维张量，RGB 图像可以表示 3 维张量。你可以把张量
阅读更多2024-09-21
【计算机网络 - 基础问题】每日 3 题（十六）
✍个人博客：Pandaconda-CSDN博客📣专栏地址：http://t.csdnimg.cn/fYaBd📚专栏简介：在这个专栏中，我将会分享 C++ 面试中常见的面试题给大家~📝推荐参考地址：ht
阅读更多2024-09-21
@EnableScheduling 和 @Scheduled 实现定时任务的任务延期问题
本文主要讲述了使用 @EnableScheduling 可能出现的线程阻塞导致定时任务延期的问题，也顺便解释了动态定时任务源码上的实现
阅读更多2024-09-21
WPF 自定义路由事件
路由事件的所有者类类型。不能为 null（比如你声明一个控件，你对这个控件定义一个路由，所有者就是这个控件）当我需要调用的时候，只需要再调用的地方为该路由指定一个方法，然后满足触发该路由条件时，就会触
阅读更多2024-09-21