Flink 中 JDBC Connector 使用详解

🕗 发布于 2024-11-28 14:38 大数据 flink mysql

1. 背景

在实时计算或离线任务中，往往需要与关系型数据库交互，例如 MySQL、PostgreSQL 等。Apache Flink 提供了 JDBC Connector，可以方便地将流式数据写入或读取数据库。

本文将介绍 Flink JDBC Connector 的基础用法、配置方法以及注意事项，帮助开发者更好地集成数据库操作。

2. JDBC Connector 的基础概念

JDBC Connector 是 Flink 官方提供的一个用于连接关系型数据库的工具包，支持：

Source：从数据库读取数据。
Sink：将数据写入数据库。

使用 JDBC Connector 可以实现对数据库的实时写入，也可以用作批量操作的工具。

3. Maven 依赖

在项目中添加 Flink JDBC 依赖：

<dependency>
    <groupId>org.apache.flink</groupId>
    <artifactId>flink-connector-jdbc_2.12</artifactId>
    <version>1.17.0</version> <!-- 根据实际使用的 Flink 版本调整 -->
</dependency>

如果使用 MySQL 数据库，还需添加 MySQL 驱动：

<dependency>
    <groupId>mysql</groupId>
    <artifactId>mysql-connector-java</artifactId>
    <version>8.0.33</version> <!-- MySQL 驱动版本 -->
</dependency>

4. JDBC Connector 的使用

4.1 写入数据库（Sink）

以下是一个将流式数据写入 MySQL 的示例：

import org.apache.flink.api.common.typeinfo.Types;
import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.connector.jdbc.JdbcSink;

public class JdbcSinkExample {
    public static void main(String[] args) throws Exception {
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

        // 模拟输入数据
        env.fromElements(
                Tuple2.of(1, "Alice"),
                Tuple2.of(2, "Bob"),
                Tuple2.of(3, "Charlie")
        )
        .addSink(JdbcSink.sink(
                "INSERT INTO users (id, name) VALUES (?, ?)", // SQL 语句
                (ps, t) -> {
                    ps.setInt(1, t.f0);  // 设置第一个参数为 ID
                    ps.setString(2, t.f1);  // 设置第二个参数为 Name
                },
                JdbcSink.DefaultJdbcExecutionOptions.builder()
                        .withBatchSize(100) // 批量写入大小
                        .build(),
                () -> JdbcSink.defaultJdbcConnectionProvider(
                        "jdbc:mysql://localhost:3306/testdb", // 数据库 URL
                        "root",  // 用户名
                        "password" // 密码
                )
        ));

        env.execute("Flink JDBC Sink Example");
    }
}

关键点解析

SQL 语句：支持动态参数 ? 占位符，适合批量插入。
参数绑定：通过 Lambda 表达式绑定输入数据与 SQL 参数。
批量写入：通过 JdbcExecutionOptions 配置批量写入策略。

4.2 从数据库读取数据（Source）

以下是一个从 MySQL 读取数据并打印的示例：

import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.connector.jdbc.JdbcInputFormat;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.api.datastream.DataStream;

public class JdbcSourceExample {
    public static void main(String[] args) throws Exception {
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

        DataStream<Tuple2<Integer, String>> sourceStream = env.createInput(
            JdbcInputFormat.buildJdbcInputFormat()
                .setDrivername("com.mysql.cj.jdbc.Driver") // JDBC 驱动
                .setDBUrl("jdbc:mysql://localhost:3306/testdb") // 数据库 URL
                .setUsername("root") // 用户名
                .setPassword("password") // 密码
                .setQuery("SELECT id, name FROM users") // SQL 查询
                .setRowTypeInfo(Types.TUPLE(Types.INT, Types.STRING)) // 结果类型
                .finish()
        );

        sourceStream.print();

        env.execute("Flink JDBC Source Example");
    }
}

关键点解析

SQL 查询：需要提供完整的查询语句。
结果类型：通过 RowTypeInfo 显式定义数据库返回的数据结构。

5. JDBC Connector 的配置选项

5.1 批量写入配置

通过 JdbcExecutionOptions 可调整写入策略：

withBatchSize(int)：设置批量写入大小（默认为 500）。
withBatchIntervalMs(long)：设置批量写入的时间间隔。
withMaxRetries(int)：设置写入失败后的最大重试次数。

5.2 数据库连接池

Flink JDBC Connector 默认使用单个连接执行操作。对于高并发需求，可以结合 HikariCP 等连接池框架优化性能。

6. 注意事项

事务支持：
- 默认情况下，JDBC Sink 使用批量提交，未显式开启事务。如果需要事务一致性，可以通过 JDBC 驱动自行管理事务。
数据库性能瓶颈：
- 数据库可能成为瓶颈，建议使用批量写入和合适的索引优化性能。
- 高写入场景可考虑切换到 Kafka、HBase 等专为实时写入设计的存储系统。
错误处理：
- 可通过 withMaxRetries 设置重试次数。
- 对于未能成功写入的数据，可考虑使用侧输出流保存以供后续处理。
分布式读取：
- 默认情况下，Flink JDBC Source 在单线程上运行，性能可能有限。可以使用分片或其他工具提升读取性能。

7. 总结

Flink JDBC Connector 是一个简单而高效的工具，适用于实时计算场景下与关系型数据库的交互。无论是数据写入还是读取，都可以通过简单配置快速实现。但对于高并发和大规模数据场景，需要根据业务需求调整策略。

原文地址：https://blog.csdn.net/m0_70691645/article/details/144093276

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：Qt中QGraphics绘图类相关解释
下一篇：【软件工程】期末练习题（1）{持续更新中}

CTF之密码学（RSA加密）
RSA加密算法由Ron Rivest、Adi Shamir和Leonard Adleman在1977年共同发明，并因此得名。它是第一个既能用于数据加密也能用于数字签名的算法。RSA的安全性基于数论中的
阅读更多2024-11-28
D81【 python 接口自动化学习】- python基础之HTTP
request请求可以使用session会话保持登录态...
阅读更多2024-11-28
理解B+树
在数据库的世界里，数据检索的速度至关重要。为了提高数据检索的效率，数据库系统采用了多种数据结构，其中B+树（B-plus Tree）因其独特的特性而成为索引实现的首选。今天，我们将深入探讨B+树的原理
阅读更多2024-11-28
输入一行字符，分别统计出其中英文字母、空格、数字和其它字符的个数。-多语言
输入一行字符，分别统计出其中英文字母、空格、数字和其它字符的个数。利用while语句,条件为输入的字符不为'\n'。
阅读更多2024-11-28
python控制鼠标，键盘，adb
更新中…
阅读更多2024-11-28
在 Linux 系统中根据pid查找软件位置
获取进程的命令名称。：获取进程的完整可执行文件路径。：使用lsof查找可执行文件路径。pwdx ：显示进程的工作目录。这些方法可以帮助您快速找到进程对应的可执行文件的位置。
阅读更多2024-11-28
VM+Ubuntu18.04+XSHELL+VSCode环境配置
为什么要用虚拟机？想学习Linux操作系统，一般有3种方法可以实现：将自己的操作系统换成Linux操作系统（Linux操作系统使用日常办公、游戏等不方便，不推荐）；安装双系统（Windows+Linu
阅读更多2024-11-28
【机器学习】机器学习基础
机器学习（Machine Learning, ML）是一种人工智能（AI）的分支，指计算机通过数据学习规律并做出预测或决策，而无需明确编程。它的核心目标是让机器能够从经验中学习，逐渐提高自身表现。
阅读更多2024-11-28
git源码安装
使用"wget"命令下载Git源码包，例如："wget https://www.kernel.org/pub/software/scm/git/git-2.0.5.tar
阅读更多2024-11-28
Modern Effective C++ item 15:尽可能的使用constexpr
当constexpr应用于函数时，表示函数可以在编译期执行，因为参数也是编译期常量。常量表达式构造函数拥有和常量表达式函数相同的退化特性，当它的实参不是常量表达式的时候，构造函数可以退化为普通构造函数
阅读更多2024-11-28

Flink 中 JDBC Connector 使用详解

1. 背景

2. JDBC Connector 的基础概念

3. Maven 依赖

4. JDBC Connector 的使用

4.1 写入数据库（Sink）

关键点解析

4.2 从数据库读取数据（Source）

关键点解析

5. JDBC Connector 的配置选项

5.1 批量写入配置

5.2 数据库连接池

6. 注意事项

7. 总结

相关文章