如何基于 Apache SeaTunnel 同步数据到 Iceberg

🕗 发布于 2024-07-19 17:15 大数据

概述

Apache SeaTunnel

Apache SeaTunnel 是一个分布式、高性能、易扩展、用于海量数据（离线&实时）同步和转化的开源数据集成平台，支持spark、flink 及自研 Zeta 引擎，有庞大的用户社群.

Apache Iceberg

Apache Iceberg 是一个开源的表格格式，它旨在改善大数据生态系统中复杂的数据湖管理。作为Apache软件基金会的一部分，Iceberg专为提供更强大、更灵活的数据湖表格管理功能而设计，它通过提供一种更加高效和可靠的方式来处理大规模数据集，从而解决了传统数据湖在数据可靠性、性能和可维护性方面的挑战。

主要特点

模式演变和兼容性：Iceberg支持模式的演变，同时保证了向前和向后的兼容性。这使得在不破坏已有数据的情况下添加、删除、更新字段成为可能。
隐藏分区：分区信息作为表模式的一部分进行存储，这消除了需要手动管理分区目录的复杂性。分区对查询透明，即可进行常规查询而无需指定具体的分区。
多计算引擎支持：Iceberg可以与现代计算引擎无缝集成，包括Apache Spark、Apache Flink、PrestoDB 和 Trino等。同一数据集可以被多个引擎并发访问且保持一致性。
存储引擎支持： HDFS / S3
原子操作：Iceberg支持原子性写入操作。这意味着表更新要么全部成功，要么全部失败，确保了数据的一致性。
快照管理：支持表的快照功能，允许用户回滚到历史版本，以及进行增量读取操作。这对于数据恢复和审计尤为重要。
高效读写：通过提供文件层面的元数据，使得读写操作可以更高效地进行。该功能减少了需要扫描的数据量，改善了查询性能。

使用场景

数据湖构建和管理：对于需要构建和管理大型数据湖的企业和组织，Apache Iceberg提供了一个高效、可扩展且易于管理的解决方案。
多计算引擎环境：在使用多个计算引擎进行数据处理的环境中，Iceberg能够提供一致的数据视图和并发控制。
数据科学和分析：提供了更强大且灵活的数据组织方式，使得进行复杂分析和数据科学项目更加容易。

SeaTunnel Iceberg sink

介绍

Apache SeaTunnel connector-Iceberg 是专门为Iceberg引擎开发的数据同步组件，主要为了方便SeaTunnel 用户能更加友好的使用Iceberg来构建企业级数据湖仓

Iceberg sink 特性

支持数据批量数据写入
cdc模式下的数据同步
支持配置自动建表
支持schema evolution
支持指定分区键
支持数据提交到指定的branch

Sink参数配置

Name	Type	Required	Default	Description
catalog_name	string	yes	default	用户指定的目录名称。默认为 default。
namespace	string	yes	default	Iceberg 数据库名称。默认为 default
table	string	yes	-	Iceberg 表名称。
iceberg.catalog.config	map	no	-	指定用于初始化 Iceberg 目录的属性，具体配置参考：Iceberg Catalog Properties
hadoop.config	map	no	-	指定 Hadoop 配置的属性，具体配置参考: Hadoop Configuration
iceberg.hadoop-conf-path	string	no	-	指定加载 'core-site.xml'、'hdfs-site.xml'、'hive-site.xml' 文件的路径。
case_sensitive	boolean	no	false	控制是否以区分大小写的方式匹配 schema。
iceberg.table.write-props	map	no	-	传递给 Iceberg 写入器初始化的属性，这些属性具有优先权，可以在 Iceberg Write Properties 找到具体参数。
iceberg.table.auto-create-props	map	no	-	Iceberg 在自动创建表时指定的配置, 具体参照: Table Behavior Properties
iceberg.table.schema-evolution-enabled	boolean	no	false	将其设置为 true 可以使 Iceberg 表在同步过程中支持模式演变。目前仅支持添加字段和部分类型变更
iceberg.table.primary-keys	string	no	-	表的主键配置，多个主键用","分割，与 "iceberg.table.upsert-mode-enabled" 一起使用，用于同主键数据的增量更新
iceberg.table.upsert-mode-enabled	boolean	no	false	将其设置为 true 以启用 upsert 模式，默认为 false，用于 Iceberg 中数据的增量更新
iceberg.table.partition-keys	string	no	-	创建表时指定的分区字段，多个分区字段使用","分隔。
iceberg.table.commit-branch	string	no	-	指定数据提交的分支

同步模式

批处理

批模式数据导入, append模式 ,不进行数据的增量更新
支持 flink , spark ，zeta 引擎

env {
  parallelism = 1
  job.mode = "BATCH"

  # You can set spark configuration here
  spark.app.name = "SeaTunnel"
  spark.executor.instances = 2
  spark.executor.cores = 1
  spark.executor.memory = "1g"
  spark.master = local
}

source {
  FakeSource {
    row.num = 100
    schema = {
      fields {
        c_map = "map<string, string>"
        c_array = "array<int>"
        c_string = string
        c_boolean = boolean
        c_tinyint = tinyint
        c_smallint = smallint
        c_int = int
        c_bigint = bigint
        c_float = float
        c_double = double
        c_decimal = "decimal(30, 8)"
        c_bytes = bytes
        c_date = date
        c_timestamp = timestamp
      }
    }
    result_table_name = "fake"
  }
}

transform {
}

sink {
  Iceberg {
    catalog_name="seatunnel_test"
    iceberg.catalog.config={
      "type"="hadoop"
      "warehouse"="file:///tmp/seatunnel/iceberg/hadoop-sink/"
    }
    namespace="seatunnel_namespace"
    table="iceberg_sink_table"
    iceberg.table.write-props={
      write.format.default="parquet"
      write.target-file-size-bytes=10
    }
    iceberg.table.partition-keys="c_timestamp"
    case_sensitive=true
  }
}

流写入(CDC)

配置mysql cdc 进行数据的增量采集
Sink 指定 iceberg.table.primary-keys 和 iceberg.table.upsert-mode-enabled=true 进行数据增量写入
配置 iceberg.table.schema-evolution-enabled=true 支持 schema 的演进（当前仅支持增加字段和部分类型变更）

支持 flink / zeta 引擎的数据同步，不支持 spark

env {
parallelism = 1
job.mode = "STREAMING"
checkpoint.interval = 5000
}

source { MySQL-CDC { result_table_name="customer_result_table" catalog { factory = Mysql } debezium = { # include ddl "include.schema.changes" = true } database-names=["mysql_cdc"] table-names = ["mysql_cdc.mysql_cdc_e2e_source_table"] format=DEFAULT username = "st_user" password = "seatunnel" base-url = "jdbc:mysql://mysql_cdc_e2e:3306/mysql_cdc" } }

transform { }

sink { Iceberg { catalog_name="seatunnel_test" iceberg.catalog.config={ "type"="hadoop" "warehouse"="file:///tmp/seatunnel/iceberg/hadoop-cdc-sink/" } namespace="seatunnel_namespace" table="iceberg_sink_table" iceberg.table.write-props={ write.format.default="parquet" write.target-file-size-bytes=10 } iceberg.table.primary-keys="id" iceberg.table.partition-keys="f_datetime" iceberg.table.upsert-mode-enabled=true iceberg.table.schema-evolution-enabled=true case_sensitive=true } }

```

总结

基于Apache SeaTunnel来构建数据湖项目，我们可以直接引用 SeaTunnel 强大的组件生态，不用独立构造新的项目来实现业务需求，同时Apache SeaTunnel的标准的架构设计也为熟悉开源的朋友提供了快速独立扩展的机会，可以在此基础上快速扩展自己的需求，做出符合自己业务需要的组件，也欢迎大家试用 Iceberg-connect , 希望能帮大家真正解决实际生产场景中遇到的问题，

也希望大家能积极反馈使用中的问题，并贡献场景，大家共同来解决，并促进 Iceberg-connect 组件的完善，一起共创数据开发的新场景.

本文由白鲸开源科技提供发布支持！

原文地址：https://blog.csdn.net/weixin_54625990/article/details/140527756

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：Apache SeaTunnel——OLAP 引擎的数据动脉
下一篇：二、原型模式

【大数据学习 | flume】flume Sink Processors与拦截器Interceptor
比如：一个日志文件(多个系统的日志都在该文件中)，根据日志中某个字段值，比如type=1，是系统A日志，sink to hdfs；type=2，是系统B日志，sink to kafka，此时就可以使用
阅读更多2024-11-17
5. langgraph中的react agent使用 (从零构建一个react agent)
首先，我们需要定义 Agent 的状态，这包括 Agent 所持有的消息。Annotated,Sequence,TypedDict,我们需要定义工具节点和模型调用节点，以便在 Agent 工作流中使用
阅读更多2024-11-17
37.超级简易的计算器 C语言
超级简单，简单到甚至这个计算器输入都比较反人类。
阅读更多2024-11-17
TCP Analysis Flags 之 TCP Dup ACK
TCP 段大小为 0窗口大小非零且没有改变，或者有有效的 SACK 数据下一个期望的 Seq Num 和 LastACK Num 是非 0 的（即连接已经建立）没有设置 SYN、FIN、RST具体的代
阅读更多2024-11-17
【AI图像生成网站&Golang】雪花算法
使用更精准的时间单位。提供了自定义机器 ID 的能力。支持长时间运行，且避免了时钟回拨问题。改进点Snowflake 的问题Sonyflake 的优化符号位固定占用 1 位，没有实际用途去掉符号位，增
阅读更多2024-11-17
【go从零单排】Directories、Temporary Files and Directories目录和临时目录、临时文件
在 Go 语言中，path/filepath 包提供了一组用于处理文件路径的函数，特别是与文件系统路径相关的操作。这个包是 Go 标准库的一部分，主要用于跨平台的路径操作，确保在不同操作系统上（如 W
阅读更多2024-11-17
菜叶子芯酸笔记4：大模型训练、分布式训练、显存估算
大模型训练任务主要分为以下三种模型训练过程。预训练pretrain监督微调 supervised finetune training奖励模型 reward model。
阅读更多2024-11-17
前端面试笔试（四）
RADIUS是一种分布式的、客户端/服务器结构的信息交互协议，"100"是一个有效的数字，它等于十进制的4。哈希表有10个元素，采用的hash函数为H(key)=key%10，用线
阅读更多2024-11-17
力扣-Hot100-链表其一【算法学习day.34】
##我做这类文档一个重要的目的还是给正在学习的大家提供方向（例如想要掌握基础用法，该刷哪些题？）我的解析也不会做的非常详细，只会提供思路和一些关键点，力扣上的大佬们的题解质量是非常非常高滴！！！
阅读更多2024-11-17
机器学习实战笔记30-31：逻辑回归及对应调参实验代码
Class_weight:输入{0:1,1:3}则代表1类样本的每条数据在计算损失函数时都会*3，当输入balanced，则调整为真实样本比例的反比，以达到平衡，但实际情况中不常用。#UI多迭代10的
阅读更多2024-11-17