Flink SQL

🕗 发布于 2024-11-06 05:50 flink

进入 JobManager 容器：
```
docker exec -it 21442d9ca797 /bin/bash
```
启动 Flink 的 SQL 客户端：
```
/opt/flink/bin/sql-client.sh embedded
```

尝试创建 Kafka 表：

在启动的 SQL 客户端中，尝试创建一个 Kafka 表，看看是否能够成功：

CREATE TABLE test_kafka_table (
    message STRING
) WITH (
    'connector' = 'kafka',
    'topic' = 'test_topic',
    'properties.bootstrap.servers' = '110.40.130.231:9092',
    'format' = 'json'
);

如果没有报错，说明 Kafka 连接器已成功加载。

以下是一个使用 Flink SQL 从 Kafka 读取数据、进行简单聚合计算、并将结果写入 MySQL 和 HDFS 的示例。这个示例假设你已经安装并配置好了 Flink、Kafka、MySQL 和 HDFS。

1. 从 Kafka 读取数据

首先，创建一个 Kafka 表来定义数据源。假设 Kafka 主题名为 user_behavior，包含用户行为数据，每条消息格式为 JSON，包含字段 user_id, item_id, category_id, behavior, ts (时间戳)。

CREATE TABLE user_behavior (
    user_id BIGINT,
    item_id BIGINT,
    category_id BIGINT,
    behavior STRING,
    ts TIMESTAMP(3),
    proctime AS PROCTIME(), -- 添加处理时间列
    WATERMARK FOR ts AS ts - INTERVAL '5' SECOND -- 设置水印，允许5秒延迟
) WITH (
    'connector' = 'kafka',
    'topic' = 'user_behavior',
    'properties.bootstrap.servers' = 'localhost:9092',
    'format' = 'json',
    'scan.startup.mode' = 'latest-offset'
);

2. 进行简单的聚合计算

接下来，对用户行为数据进行简单的聚合计算，例如按类别统计每分钟的行为次数。

CREATE VIEW behavior_count AS
SELECT
    category_id,
    TUMBLE_START(ts, INTERVAL '1' MINUTE) as window_start,
    COUNT(*) as behavior_count
FROM user_behavior
GROUP BY category_id, TUMBLE(ts, INTERVAL '1' MINUTE);

使用了 TUMBLE 函数来创建滚动窗口，按每分钟对数据进行分组，并计算每个类别的行为次数。

3. 将处理后的数据写入 MySQL

为了将上述聚合结果写入 MySQL，首先创建一个 MySQL 表。

CREATE TABLE behavior_summary (
    category_id BIGINT,
    window_start TIMESTAMP(3),
    behavior_count BIGINT,
    PRIMARY KEY (category_id, window_start) NOT ENFORCED
) WITH (
    'connector' = 'jdbc',
    'url' = 'jdbc:mysql://localhost:3306/mydatabase',
    'table-name' = 'behavior_summary',
    'username' = 'myuser',
    'password' = 'mypassword'
);

然后，可以INSERT INTO 语句将数据插入到 MySQL 表中。

INSERT INTO behavior_summary
SELECT * FROM behavior_count;

4. 将处理后的数据写入 HDFS

如果想将数据写入 HDFS，先创建一个 HDFS 表。

CREATE TABLE behavior_summary_hdfs (
    category_id BIGINT,
    window_start TIMESTAMP(3),
    behavior_count BIGINT
) WITH (
    'connector' = 'filesystem',
    'path' = 'hdfs://localhost:9000/user/flink/behavior_summary',
    'format' = 'csv'
);

接着，使用 INSERT INTO 语句将数据写入 HDFS。

INSERT INTO behavior_summary_hdfs
SELECT * FROM behavior_count;

总结

以上步骤展示了如何使用 Flink SQL 从 Kafka 读取数据、进行聚合计算，并将结果分别写入 MySQL 和 HDFS。这是一个基本的流程，根据实际需求，可以调整表结构、连接器配置以及 SQL 查询以适应不同的应用场景。

原文地址：https://blog.csdn.net/qq_41081716/article/details/143508790

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：springboot单元测试配置
下一篇：JAVA基础：单元测试；注解；枚举；网络编程（学习笔记）

Spark on YARN：Spark集群模式之Yarn模式的原理、搭建与实践
本文将深入探讨为什么要将 Spark 程序运行在 YARN 上而不是 Spark 自带的 Standalone 集群上，详细介绍 Spark 的 YARN 集群搭建过程，以及在 YARN 模式下不同
阅读更多2024-11-07
1.1 关于游戏编程
1.1.1、游戏中客户端和服务器的交互1.1.2、游戏客户端安装包和服务器安装包1.1.3、客户端软件如何和服务端软件通信1.1.4、计算机之间的通信数据传送抓取（wireshark）1.1.5、关于
阅读更多2024-11-07
全文检索ElasticSearch到底是什么？
但是电商项目中，商品上亿条时，查询“笔记本电脑”等关键词时，上亿条数据的商品名字段逐行扫描，性能跟不上。而且不能分词，如搜索“笔记本电脑”，只能搜索完全和关键词一样的数据，那么数据量小时，搜索“笔记本
阅读更多2024-11-07
本地使用conda创建django虚拟环境
Django与python 的版本号一定要匹配，我就是在这块卡了好久，总是运行不成功。
阅读更多2024-11-07
3种最难学习和最容易学习的 3 种编程语言
无论您是想改变职业方向还是扩展程序员的技能，您选择学习的语言都会显着影响您的时间投入和前景。一些语言使用熟悉的语法，欢迎为繁重的工作提供最少的代码命令，并且是开源的，具有有用的开发人员社区，可指导用户
阅读更多2024-11-07
测试分层：减少对全链路回归依赖的探索！
引言：测试分层与全链路回归的挑战、在软件开发和测试过程中，全链路回归测试往往是一个复杂且耗费资源的环节，尤其在系统庞大且模块众多的场景下，全链路测试的集成难度显著提高。而“测试分层”作为一种结构化的测
阅读更多2024-11-07
反向代理模块
反向代理是指以代理服务器来接收客户端的请求，然后将请求转发给内部网络上的服务器，将从服务器上得到的结果返回给客户端，此时代理服务器对外表现为一个反向代理服务器。不适用代理的情况下，外网不能访问企业内网
阅读更多2024-11-07
Spark程序的监控
本地的程序，访问地址是：http://localhost:4040。
阅读更多2024-11-07
WPS单元格重复值提示设置
当出现单元格值重复时，重复的单元格就会自动变化。选中要检查的所有的单元格。
阅读更多2024-11-07
SQLite数据库是什么？DB Browser for SQLite是什么？
它以其强大的功能和用户友好的界面，成为了广大开发者和日常用户管理SQLite数据库的首选工具。**无论您是专业的数据库管理员，还是初学者，DB Browser都能为您提供便捷、高效的数据库管理体验。D
阅读更多2024-11-07

Flink SQL

1. 从 Kafka 读取数据

2. 进行简单的聚合计算

3. 将处理后的数据写入 MySQL

4. 将处理后的数据写入 HDFS

总结

相关文章