Flink处理无界数据流

🕗 发布于 2024-11-09 07:03 flink

Apache Flink 是一个专为处理无界和有界数据流而设计的流处理框架。处理无界数据流的关键在于能够实时处理不断到达的数据，并且保证处理的正确性和高效性。以下是Flink处理无界数据流的主要步骤和技术：

1. 数据源 (Source)

无界数据流的第一个步骤是从数据源获取数据。常见的数据源包括：

消息队列：如Kafka、RabbitMQ等。
网络连接：如Socket连接。
文件系统：如读取不断更新的日志文件。

2. 数据转换 (Transformation)

Flink 提供了一组丰富的算子来处理数据流。这些算子可以进行各种数据转换操作，如过滤、映射、聚合等。常见的算子包括：

map()：对每个元素应用一个函数。
filter()：过滤掉不符合条件的元素。
keyBy()：基于某个键对数据流进行分区。
window()：定义时间窗口，对窗口内的数据进行聚合。
reduce()：对窗口内的数据进行累积计算。
join()：合并两个数据流。

3. 时间和窗口

处理无界数据流时，时间和窗口的概念非常重要：

事件时间 (Event Time)：数据产生的时间。
处理时间 (Processing Time)：数据在Flink中被处理的时间。
窗口 (Window)：将无限的数据流划分为有限的数据集，以便进行聚合操作。常见的窗口类型包括：
- 滚动窗口 (Tumbling Window)：互不重叠的固定大小窗口。
- 滑动窗口 (Sliding Window)：部分重叠的固定大小窗口。
- 会话窗口 (Session Window)：基于活动间隔的窗口。

4. 状态管理和容错

Flink 使用状态管理和检查点机制来保证处理的正确性和容错性：

状态管理：Flink允许在算子中维护状态，以便在处理过程中存储中间结果。状态可以是键值对、列表或其他复杂结构。
检查点 (Checkpoint)：Flink定期创建检查点，保存当前的状态快照。如果发生故障，可以从最近的检查点恢复，保证数据的一致性和完整性。

5. 输出 (Sink)

处理完数据后，结果需要输出到目标系统。常见的输出目标包括：

数据库：如MySQL、PostgreSQL等。
消息队列：如Kafka、RabbitMQ等。
文件系统：如HDFS、S3等。

示例代码

from pyflink.datastream import StreamExecutionEnvironment
from pyflink.table import StreamTableEnvironment, EnvironmentSettings
from pyflink.table.descriptors import Schema, Kafka, Json, Jdbc
from pyflink.table.window import Tumble
from pyflink.table.expressions import col, lit

def page_view_count():
    # 创建执行环境
    env = StreamExecutionEnvironment.get_execution_environment()
    t_env = StreamTableEnvironment.create(env)

    # 配置Kafka连接器
    t_env.connect(Kafka()
                  .version("universal")
                  .topic("pageviews")
                  .start_from_earliest()
                  .property("bootstrap.servers", "localhost:9092")) \
        .with_format(Json().fail_on_missing_field(True)) \
        .with_schema(Schema()
                     .field("user_id", "STRING")
                     .field("page_id", "STRING")
                     .field("timestamp", "TIMESTAMP(3)")) \
        .in_append_mode() \
        .register_table_source("pageviews")

    # 配置JDBC连接器
    t_env.connect(Jdbc()
                  .username("your_username")
                  .password("your_password")
                  .driver("com.mysql.jdbc.Driver")
                  .url("jdbc:mysql://localhost:3306/your_database")
                  .table("pageview_counts")) \
        .with_format("csv") \
        .with_schema(Schema()
                     .field("page_id", "STRING")
                     .field("count", "BIGINT")
                     .field("window_end", "TIMESTAMP(3)")) \
        .in_upsert_mode() \
        .register_table_sink("pageview_counts")

    # 定义查询
    t_env.scan("pageviews") \
        .group_by(col("page_id"), Tumble.over(lit(1).minute).on(col("timestamp")).as_("w")) \
        .select(col("page_id"), col("w").end, col("page_id").count) \
        .insert_into("pageview_counts")

    # 执行任务
    t_env.execute("Page View Count")

if __name__ == "__main__":
    page_view_count()

代码解释

创建执行环境：
- StreamExecutionEnvironment：用于创建数据流处理环境。
- StreamTableEnvironment：用于创建表处理环境。
配置Kafka连接器：
- 使用 Kafka() 方法连接到 Kafka 集群。
- 设置 Kafka 主题和配置属性。
- 定义数据格式为 JSON。
- 定义表模式，包括字段名称和类型。
配置JDBC连接器：
- 使用 Jdbc() 方法连接到 MySQL 数据库。
- 设置数据库的用户名、密码、驱动、URL 和表名。
- 定义数据格式为 CSV。
- 定义表模式，包括字段名称和类型。
- 设置插入模式为 upsert 模式，以确保唯一性。
定义查询：
- 使用 scan 方法读取数据源表。
- 使用 group_by 方法按 page_id 和时间窗口进行分组。
- 使用 select 方法选择所需的字段和聚合结果。
- 使用 insert_into 方法将结果插入到目标表中。
执行任务：
- 调用 t_env.execute 方法启动任务。

准备MySQL表

确保你的 MySQL 数据库中有一个名为 pageview_counts 的表。你可以使用以下 SQL 语句创建表：

CREATE TABLE pageview_counts (
    page_id VARCHAR(255),
    count BIGINT,
    window_end TIMESTAMP,
    PRIMARY KEY (page_id, window_end)
);

运行代码

确保 Kafka 集群正在运行，并且 pageviews 主题中有数据。然后运行上述 Python 脚本，Flink 将会处理数据并输出每分钟的页面浏览次数到 MySQL 数据库的 pageview_counts 表中。

通过这种方式，PyFlink 能够高效地处理无界数据流，并将结果持久化到关系型数据库中。

原文地址：https://blog.csdn.net/qq_41081716/article/details/143624738

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：阿里云centos7.9服务器磁盘挂载，切换服务路径
下一篇：TCP连接如何保障数据传输安全

Windows电脑本地部署llamafile并接入Qwen大语言模型远程AI对话实战
Windows电脑本地部署llamafile并接入Qwen大语言模型远程AI对话实战
阅读更多2024-11-23
解决vm虚拟机中ctrl键粘滞问题（一直处于按下状态）
虚拟机中点击鼠标左键没有问题，单独按下键盘也没有问题，但是如果按下键盘的同时在按下鼠标左键就会卡住。而且100%稳定复现。发现问题原因：vm版本的问题，我的版本是17.5.0，升级成17.5.2 bu
阅读更多2024-11-23
第十章 JavaScript的应用
10.1.1 JavaScript简介1 简单性JavaScript 设计之初就考虑到了非专业程序员的使用，因此它的语法相对简单，容易上手。2 动态性JavaScript 是一种解释型语言，代码可以在
阅读更多2024-11-23
非root用户安装CUDA
4.下载完成后执行.run文件，需要添加两个参数，一个是--override，用于跳过某些检查或限制；另一个是--toolkitpath，它表示安装路径，必须是自己目录下面的路径，如果是根目录就会安装
阅读更多2024-11-23
Python操作neo4j库py2neo使用之py2neo 删除及事务相关操作（三）
【代码】## Python操作neo4j库py2neo使用之py2neo 删除及事务相关操作（三）
阅读更多2024-11-23
【通俗理解】Jensen不等式与变分分布q(z)在积分计算中的应用
Jensen不等式 #变分分布 #积分计算 #期望 #凸函数 #优化问题 #下界估计 #机器学习。
阅读更多2024-11-23
「Mac玩转仓颉内测版27」基础篇7 - 字符串类型详解
本篇将介绍 Cangjie 中的字符串类型，包括字符串的定义、字面量形式、插值表达、常用操作及应用场景，帮助开发者熟练掌握字符串的使用。
阅读更多2024-11-23
数据科学与SQL：组距分组分析 | 区间分布问题
绝对值分布分析也可以理解为组距分组分析。对于某个指标而言，一个记录对应的指标值的绝对值，肯定落在所有指标值的绝对值的最小值和最大值构成的区间内，根据一定的算法，在把这个区间划分为等距离的几个小区间，，
阅读更多2024-11-23
c++编译报C1004错误的原因及解决办法
可能是你的代码文件最后没有正确的结束符，或者是缺少了一些必要的头文件或语句。默认磁盘驱动器没有足够的空间用于临时文件，需要大约两倍于源文件的空间。编译器到达了源文件尾但未解析构造。计算结果为假的 #i
阅读更多2024-11-23
mysql 去重补全取出重复变量函数和存储过程
mysql 去重补全取出重复变量函数和存储过程
阅读更多2024-11-23