大数据学习---快速了解clickhouse数据库

🕗 发布于 2024-10-16 11:35 数据库 clickhouse

ClickHouse数据库介绍

ClickHouse是一款由Yandex开发的列式数据库管理系统（DBMS），适用于在线分析处理（OLAP）场景。它具有高性能、可扩展性、实时更新等特点，适用于处理大规模数据。

特点

列式存储：ClickHouse采用列式存储，这使得它非常适合进行聚合计算，因为只需读取相关的列数据。
向量引擎：ClickHouse使用向量引擎处理数据，能够实现高效的批量数据计算。
实时更新：ClickHouse支持实时更新和删除数据，这在列式数据库中较为少见。
数据压缩：ClickHouse对数据进行高效压缩，减少存储空间和I/O开销。
分布式处理：ClickHouse支持分布式查询和数据处理，可以轻松扩展处理能力。

安装与配置

ClickHouse的安装相对简单，以下是在Ubuntu系统上的安装示例：

sudo apt-get update
sudo apt-get install -y clickhouse-server clickhouse-client

安装完成后，可以通过以下命令启动服务：

sudo service clickhouse-server start

使用clickhouse-client命令行工具连接到ClickHouse服务器：

clickhouse-client

基本概念

数据库（Database）：数据存储的逻辑空间。
表（Table）：存储数据的基本单位，由列组成。
列（Column）：表中的一个字段，所有数据按列存储。
数据类型（Data Type）：定义了列中数据的类型，如UInt32、Float64、String等。

示例

以下是一个简单的ClickHouse示例，包括创建数据库、表，以及插入和查询数据。

创建数据库

CREATE DATABASE example;

使用数据库

USE example;

创建表

CREATE TABLE example_table (
    id UInt32,
    name String,
    age UInt8,
    created_at DateTime
) ENGINE = MergeTree()
ORDER BY id;

这里我们创建了一个名为example_table的表，使用了MergeTree引擎，这是一种常用的ClickHouse表引擎。

插入数据

INSERT INTO example_table VALUES (1, 'Alice', 30, now()), (2, 'Bob', 25, now());

查询数据

查询所有数据：

SELECT * FROM example_table;

查询特定列：

SELECT name, age FROM example_table;

进行聚合计算：

SELECT sum(age) FROM example_table;

更新数据

ClickHouse支持使用ALTER语句更新数据：

ALTER TABLE example_table UPDATE age = 31 WHERE id = 1;

删除数据

ClickHouse支持使用ALTER语句删除数据：

ALTER TABLE example_table DELETE WHERE id = 1;

ClickHouse数据库表引擎介绍

ClickHouse是一种列式数据库管理系统，专为在线分析处理（OLAP）场景设计。ClickHouse提供了多种表引擎，每种表引擎都有其特定的用途和特性。以下是ClickHouse中一些常用的表引擎及其简要介绍。

1. MergeTree系列

MergeTree系列引擎是ClickHouse中最强大的引擎系列，适用于大多数分析场景。

1.1. MergeTree

用途：适用于高负载的插入和查询场景。
特点：支持数据分区、数据压缩、索引、数据副本等功能。

1.2.ReplacingMergeTree

用途：用于有重复数据的场景，可以在合并分区时删除重复的数据。
特点：通过VERSION列或TTL表达式来定义重复数据的保留规则。

1.3. SummingMergeTree

用途：适用于聚合数据的场景，可以在合并分区时对数据进行预聚合。
特点：只保留汇总列和主键列，其他列会被聚合。

1.4. AggregatingMergeTree

用途：用于预先聚合数据的场景，可以显著提高聚合查询的性能。
特点：需要定义聚合函数，并且数据在合并时会被聚合。

1.5. CollapsingMergeTree

用途：用于处理具有折叠逻辑的数据，如取消操作。
特点：通过SIGN列来标记数据的折叠状态。

1.6. VersionedCollapsingMergeTree

用途：是CollapsingMergeTree的改进版，可以处理带有版本的数据折叠。
特点：除了SIGN列，还使用VERSION列来处理折叠逻辑。

2. Log系列

Log系列引擎适用于数据写入后很少进行修改的场景。

2.1. TinyLog

用途：用于非常小的表或测试场景。
特点：数据存储在单个文件中，不支持并发读取。

2.2. StripeLog

用途：用于小到中等大小的表。
特点：数据按列存储，支持并发读取。

2.3. Log

用途：类似于TinyLog，但支持并发读取。
特点：数据存储在多个文件中，每个列一个文件。

3. Integration系列

Integration系列引擎用于与外部系统集成。

3.1. Kafka

用途：用于从Kafka主题中读取数据。
特点：支持从Kafka流中消费数据并存储到ClickHouse表中。

3.2. MySQL

用途：用于将MySQL表映射到ClickHouse中。
特点：可以查询远程MySQL数据库中的数据，无需数据迁移。

4. Special系列

Special系列引擎用于特殊用途。

4.1. Distributed

用途：用于分布式查询。
特点：不是实际存储数据的引擎，而是用于在多个服务器上分布式查询数据。

4.2. MaterializedView

用途：用于创建物化视图。
特点：物化视图可以自动更新，以反映基础表的变化。

5. 其他表引擎

ClickHouse还提供了其他一些表引擎，如URL、File、Memory等，用于特定场景。

结论

ClickHouse是一款强大的列式数据库管理系统，适用于快速、高效的大规模数据分析。通过上述示例，我们可以看到ClickHouse的易用性和强大的数据处理能力。在实际应用中，ClickHouse被广泛应用于互联网、金融、物联网等领域的数据分析场景。ClickHouse的表引擎是其强大功能的核心部分，每种表引擎都针对特定场景进行了优化。选择合适的表引擎对于实现高效的数据存储和查询至关重要。在实际使用中，应根据业务需求和数据特点来选择最合适的表引擎。

原文地址：https://blog.csdn.net/wu73guang5jian/article/details/142958370

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：什么是好的单元测试 - 单元测试的哲学
下一篇：搭建localhost本地 ChatGPT 模型与总结

leetcode289:生命游戏
根据，简称为，是英国数学家约翰·何顿·康威在 1970 年发明的细胞自动机。给定一个包含m × n个格子的面板，每一个格子都可以看成是一个细胞。每个细胞都具有一个初始状态：1即为（live），或0即为
阅读更多2024-10-20
MongoDB数据恢复
注意：两个MongoDB的版本要一致，本文使用的是mongo:4.2.24。先把K8S上面的MongoDB 容器停止（可以把副本改成0）。1、将容器挂载MongoDB的数据目录备份到本地。经常是数据文
阅读更多2024-10-20
C#中实现事务
C#中实现事务
阅读更多2024-10-20
【LeetCode每日一题】——560.和为 K 的子数组
给你一个整数数组 nums 和一个整数 k ，请你统计并返回该数组中和为 k 的子数组的个数。子数组是数组中元素的连续非空序列。
阅读更多2024-10-20
「漏洞复现」满客宝智慧食堂系统 selectUserByOrgId 未授权访问漏洞
请勿利用文章内的相关技术从事非法测试，由于传播、利用此文所提供的信息而造成的任何直接或者间接的后果及损失，均由使用者本人负责，作者不为此承担任何责任。工具来自网络，安全性自测，如有侵权请联系删除。本次
阅读更多2024-10-20
React面试题目（从基本到高级）
React前端面试常见题目涵盖了React的基础概念、组件、状态管理、生命周期、性能优化等多个方面。
阅读更多2024-10-20
12.个人博客系统（Java项目基于spring和vue）
1 在校学习的学生，可用于日常学习使用或是毕业设计使用 2 毕业一到两年的开发人员，用于锻炼自己的独立功能模块设计能力，增强代码编写能力。 3 亦可以部署为商化项目使用。 4 需要完整资料及源码
阅读更多2024-10-20
YoloV8改进策略：注意力改进|DeBiFormer，可变形双级路由注意力|引入DeBiLevelRoutingAttention注意力模块（全网首发）
本次改进的核心在于将DeBiLevelRoutingAttention模块嵌入到YoloV8的主干网络中，具体位置是在SPPF（Spatial Pyramid Pooling Fast）模块之后。这一
阅读更多2024-10-20
word取消自动单词首字母大写
情况说明：在word输入单词后首字母会自动变成大写取消单词首字母大写步骤：（1）点击菜单栏文件（2）点击“更多”——>“选项”（3）点击“校对”——>“自动更正选项”（4）取消“句首字母大
阅读更多2024-10-20
web前端网页用户注册页面
【代码】web前端网页用户注册页面。
阅读更多2024-10-20