在几分钟内将数据从 Oracle 迁移到 ClickHouse

🕗 发布于 2024-11-19 12:49 oracle clickhouse 数据库

ClickHouse 是一个开源的面向列的数据库管理系统。它在实时数据处理方面的出色性能显着增强了数据分析和业务洞察力。将数据从 Oracle 迁移到 ClickHouse 可以释放数据在决策中的力量，这是单独使用 Oracle 无法实现的。

本教程介绍如何使用 BladePipe 将数据从 Oracle 移动到 ClickHouse。默认情况下，它使用 ReplacingMergeTree 作为 ClickHouse 表引擎。该连接的主要功能包括：

在 ReplacingMergeTree 表中添加 and 字段。_sign_version
支持 DDL 同步。
关于 BladePipe

BladePipe 是一种实时端到端数据复制工具，可简化不同数据源（包括数据库、消息队列、实时数据仓库等）之间的数据移动。

通过使用变更数据捕获（CDC）技术，BladePipe 可以自动准确地跟踪、捕获和交付数据更改，并且具有超低延迟，大大提高了数据集成效率。它为需要实时数据复制的使用案例提供了可靠的解决方案，从而推动了数据驱动的决策和业务敏捷性。

突出

替换 MergeTree 优化

在早期版本的 BladePipe 中，在将数据同步到 ClickHouse 的 ReplacingMergeTree 表时，遵循了以下策略：

Insert 和 Update 语句被转换为 Insert 语句。
Delete 语句使用 ALTER TABLE DELETE 语句单独处理。

虽然效果很好，但当 Delete 语句数量较多时，可能会影响性能，导致高延迟。

在最新版本中，BladePipe 优化了 ReplacingMergeTree 表引擎中的同步逻辑、支持和字段。所有 Insert、Update 和 Delete 语句都转换为带有版本信息的 Insert 语句。_sign_version

Schema 迁移

当 Oracle 迁移 schema 到 ClickHouse 时，BladePipe 默认使用 ReplacingMergeTree 作为表引擎，并自动向表中添加 and 字段：_sign_version

CREATE TABLE console.worker_stats (
    `id` Int64,
    `gmt_create` DateTime,
    `worker_id` Int64,
    `cpu_stat` String,
    `mem_stat` String,
    `disk_stat` String,
    `_sign` UInt8 DEFAULT 0,
    `_version` UInt64 DEFAULT 0,
    INDEX `_version_minmax_idx` (`_version`) TYPE minmax GRANULARITY 1
) ENGINE = ReplacingMergeTree(`_version`, `_sign`) ORDER BY `id`

数据写入

DML 转换

在数据写入过程中，BladePipe 采用以下 DML 转换策略：

在 Source 中插入语句：

-- Insert new data, _sign value is set to 0
INSERT INTO <schema>.<table> (columns, _sign, _version) VALUES (..., 0, <new_version>);

Update Source 中的语句（转换为两个 Insert 语句）：

-- Logically delete old data, _sign value is set to 1
INSERT INTO <schema>.<table> (columns, _sign, _version) VALUES (..., 1, <new_version>);

-- Insert new data, _sign value is set to 0
INSERT INTO <schema>.<table> (columns, _sign, _version) VALUES (..., 0, <new_version>);

删除 Source 中的语句：

-- Logically delete old data, _sign value is set to 1
INSERT INTO <schema>.<table> (columns, _sign, _version) VALUES (..., 1, <new_version>);

数据版本

在写入数据时，BladePipe 会维护每个表的版本信息：

版本初始化：在第一次写入期间，BladePipe 通过运行以下命令检索当前表的最新版本号：
```
SELECT MAX(`_version`) FROM `console`.`worker_stats`;
```
版本增量：每次写入新数据时，BladePipe 都会根据之前检索到的最大版本号递增版本号，确保每个写入操作都有一个唯一且递增的版本号。

为确保查询中的数据准确性，请添加 final 关键字以过滤掉未删除的行：

SELECT `id`, `gmt_create`, `worker_id`, `cpu_stat`, `mem_stat`, `disk_stat`
FROM `console`.`worker_stats` final;

程序

第 1 步：安装 BladePipe

按照安装 Worker （Docker）或 Install Worker （Binary）中的说明下载并安装 BladePipe Worker。

步骤 2：添加数据源

登录 BladePipe 云。
单击 DataSource > Add DataSource（添加数据源）。
选择源和目标 DataSource 类型，并分别填写设置表单。

步骤 3：创建 DataJob

单击 DataJob >创建 DataJob。
选择源数据源和目标数据源，然后单击 Test Connection 以确保与源数据源和目标 DataSources 的连接都成功。
在目标 DataSource 的 Advanced 配置中，选择表引擎作为 ReplacingMergeTree（或 ReplicatedReplacingMergeTree）。
为 DataJob Type （DataJob 类型）选择 Incremental （增量）以及 Full Data （完整数据）选项。

在 Specification settings （规范设置）中，确保选择至少 1 GB 的规范。分配过少的内存可能会导致 DataJob 执行期间出现内存不足（OOM）错误。
选择要复制的表。
选择要复制的列。
确认 DataJob 创建。

现在 DataJob 已创建并启动。BladePipe 会自动运行以下 DataTask：

Schema 迁移：源表的 Schema 将迁移到 ClickHouse。
全量数据迁移：源表的所有现有数据都将完全迁移到 ClickHouse。
增量同步：正在进行的数据更改将持续同步到目标数据库。

第 4 步：验证数据

停止 Source 数据库的数据写入，并等待 ClickHouse 合并数据。

很难知道 ClickHouse 何时自动合并数据，因此您可以通过运行命令来手动触发合并。请注意，此手动合并可能并不总是成功。

或者，您可以运行命令创建视图并对视图执行查询，以确保数据完全合并。optimize table xxx finalcreate view xxx_v as select * from xxx final
创建 Verification DataJob。验证 DataJob 完成后，查看结果以确认 ClickHouse 中的数据与 Oracle 中的数据相同。

在本教程中，使用 BladePipe 在 3 个步骤中在几分钟内创建从 Oracle 到 ClickHouse 的数据管道。此外，您还可以在复制后验证数据，确保数据的准确性。

原文地址：https://blog.csdn.net/u013528853/article/details/143834157

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：实现了两种不同的图像处理和物体检测方法
下一篇：linux环境安装cuda toolkit

深入理解 AWS Route 53 加权路由策略：实现多区域负载均衡
在当今的云计算环境中，有效管理和分配流量对于确保应用程序的高可用性和性能至关重要。AWS Route 53 的加权路由策略提供了一个强大的工具来实现这一目标。在本文中，我们将深入探讨加权路由策略的概念
阅读更多2024-11-21
Elasticsearch：如何部署文本嵌入模型并将其用于语义搜索
如何部署文本嵌入模型并将其用于语义搜索。它使你能够生成文本的向量表示并对生成的向量执行向量相似性搜索。示例中使用的模型在上公开可用。该示例使用来自的公共数据集。它由来自 Microsoft Bing
阅读更多2024-11-21
深入理解CRC：通信可靠性的关键
循环冗余校验（CRC, Cyclic Redundancy Check）是现代数据传输和存储中不可或缺的技术，用于提高系统的可靠性和数据完整性。CRC的强大之处在于其能够高效检测并定位传输错误，确保数
阅读更多2024-11-21
低速接口项目之串口Uart开发(一)——串口UART
在 RS-232 标准中，最常用的配置是八个数据位+无奇偶校验+一个停止位，按照一个完整的字节包括一位起始位、8 位数据位、一位停止位即总共十位数据来算，要想完整的实现这十位数据的发送，就需要 11个
阅读更多2024-11-21
网络安全基础
相对性、时效性、相关性、不确定性、复杂性以及重要性等。指网络系统的硬件、软件及其系统中的数据受到保护，不因偶然的或者恶意的原因而遭受到破坏、更改、泄露，系统连续可靠正常地运行，网络服务不中断。1、机密
阅读更多2024-11-21
Docker1：认识docker、在Linux中安装docker
Docker：快速构建、运行、管理应用的工具。简单来说，帮助我们部署项目、以及项目依赖的各种组件。Docker是一个典型的运维工具。以上就是在Linux中，安装docker的全部详细过程，感兴趣就关注
阅读更多2024-11-21
基于Springboot+Vue医院急诊系统(源码+PPT+LW+调试部署)
基于Spring Boot + Vue的医院急诊系统，旨在为患者提供便捷的医院急诊服务，同时提升医院的信息化管理水平。系统分为前台和后台两部分，前台功能包括医生信息、医院病房、医院论坛、医院资讯、个人
阅读更多2024-11-21
Gin 框架中的表单处理与数据绑定
Gin框架允许注册自定义验证规则。import ("regexp"// 注册自定义验证规则})首先，根据表单的需要定义一个或多个结构体。这些结构体应该清晰地反映表单数据的结构和类型
阅读更多2024-11-21
CAAS 和 IAAS
和是两种云服务模式，分别代表不同层次的云计算服务。
阅读更多2024-11-21
Spark 分布式计算中网络传输和序列化的关系（二）
Spark 中序列化和网络传输的优化直接关系到分布式计算的整体性能。结合高效的序列化工具（如 Kryo）和合理的网络传输策略（如压缩、分区优化），可以显著提高数据处理效率。中，网络传输和序列化是数据处
阅读更多2024-11-21