Flink作业骨架结构

🕗 发布于 2024-10-17 02:50 flink

前言

Flink 是大数据流计算引擎，开发者通过程序语言开发一个 Flink 作业，然后提交这个作业到服务端并执行，以完成对大数据流的处理。

Flink 作业有一个基本骨架，再复杂的 Flink 作业都离不开这个基本骨架，了解作业的基本骨架有助于我们更快上手 Flink 作业的开发。

骨架结构

Flink 作业的基本骨架包含三个部分：

创建Flink执行环境
定义数据处理逻辑
提交并执行Flink作业

创建Flink执行环境

Flink 执行环境被封装成 StreamExecutionEnvironment 对象，通过该对象，我们可以给Flink作业添加数据源、添加数据处理和输出逻辑、配置Flink作业的并行度、故障重启策略等参数。

定义数据处理逻辑

Flink是大数据流计算引擎，本质上是对大数据的计算处理，那么首先要解决的问题是：数据从哪儿来？

解决这个问题，就是给Flink作业定义数据源，数据源被抽象成了 SourceFunction 接口，实现该接口重写 run 方法即可接收数据。

有了数据，接下来就是声明要对这些数据做哪些处理？对数据的处理被抽象成了 ProcessFunction 接口，实现该接口重写 processElement 方法即可处理一条条数据。常见的数据处理操作有：过滤、转换、聚合等。

数据计算以后，还需要把计算结果给保存下来，所以最后还需要一步数据汇 sink 操作，把计算结果保存到数据存储引擎，例如写入MySQL、Redis等存储引擎。

提交并执行Flink作业

到目前为止，我们只描述了Flink的数据处理逻辑，Flink作业不手动触发的前提下，是不会自动执行的。

所以最后，如果要让上述流程跑起来，还需要手动提交并触发Flink作业。开发环境下，可以直接在本地提交并执行，生产环境一般是提交到Flink集群执行。

执行Flink作业，对应的是 StreamExecutionEnvironment#execute 方法。

字数统计作业

这里以一个统计字数作业作为示例，它被称作是 Flink 版的 Hello World，虽然简单，但是很好的体现了 Flink 作业的流程。

如下代码所示，我们先是创建了Flink作业执行环境对象 StreamExecutionEnvironment，然后定义了数据源监听本地的8888端口读取文本数据。紧接着定义数据处理逻辑，先是过滤操作，只有接收到的字符串是单个英文字母时才处理，然后把单个英文字母映射为WordCount对象，用于统计次数。然后是根据英文字母分组，相同的字母会被分到同一组，最后统计所有相同字母的 count 字段，得到的结果就是字母出现的次数。最终的 sink 操作只是简单的把结果输出到控制台。

public class WordCountJob {
    public static void main(String[] args) throws Exception {
        // 创建Flink执行环境
        StreamExecutionEnvironment environment = StreamExecutionEnvironment.getExecutionEnvironment();
        // 1. 定义数据源 从Socket读取数据
        environment.socketTextStream("127.0.0.1", 8888)
                // 2. 定义数据处理逻辑
                // 2.1 过滤 接收到的数据必须是英文字母
                .filter(e -> e.length() == 1 && Character.isLetter(e.codePointAt(0)))
                // 2.2 映射 单个字符映射成WordCount对象
                .map(e -> new WordCount(e.toUpperCase(), 1))
                // 2.3 分组 相同字母分为一组
                .keyBy(WordCount::getWord)
                // 2.4 分组后相同字母聚合求和
                .sum("count")
                // 3. 定义数据汇sink 这里输出到控制台
                .addSink(new SinkFunction<WordCount>() {
                    @Override
                    public void invoke(WordCount value, Context context) throws Exception {
                        System.err.println(value.word + ":" + value.count);
                    }
                });
        // 执行Flink作业
        environment.execute();
    }

    @Data
    @AllArgsConstructor
    @NoArgsConstructor
    public static class WordCount {
        public String word;
        public int count;
    }
}

Flink 作业启动时，就会去连接本地的8888端口，如果连接不上，会报错退出。所以启动作业前，需要先保证8888端口开启。所以Mac系统下先打开8888端口：

nc -l 8888

然后启动 Flink 作业，此时控制台什么也没有，因为数据源没有数据，Flink也就没法处理。然后我们往 8888 端口写点东西

nc -l 8888
1
a
b
c
a

控制台输出

A:1
B:1
C:1
A:2

分析一下结果，第一次发出的“1”，因为不是英文字母，所以会被filter算子过滤掉。发出第一个“a”时，因为符合条件，所以会被后续所有算子处理，最终到达sink算法，输出到控制台。发出第二个“a"时，因为之前已经有一个a了，所以sum算子求和结果是2。

尾巴

Flink作业的基本骨架包含三部分：创建作业执行环境、定义数据处理逻辑、提交并启动作业。执行环境主要用来对Flink作业进行一些设置，例如故障重启策略、并行度等参数。定义数据处理逻辑是我们开发Flink作业最重要的部分，首先要定义数据源，告诉Flink数据从哪里来，然后声明要对数据做哪些处理，最终计算结果要保存到哪里等。Flink作业是懒执行的，前面的这些操作都只是对Flink作业的一个声明和描述，必须调用execute方法作业才会真正跑起来。

原文地址：https://blog.csdn.net/qq_32099833/article/details/142958221

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：智能网联发展再提速！苏州金龙亮相第六届全球智能驾驶大会
下一篇：HTTP服务

leetcode289:生命游戏
根据，简称为，是英国数学家约翰·何顿·康威在 1970 年发明的细胞自动机。给定一个包含m × n个格子的面板，每一个格子都可以看成是一个细胞。每个细胞都具有一个初始状态：1即为（live），或0即为
阅读更多2024-10-20
MongoDB数据恢复
注意：两个MongoDB的版本要一致，本文使用的是mongo:4.2.24。先把K8S上面的MongoDB 容器停止（可以把副本改成0）。1、将容器挂载MongoDB的数据目录备份到本地。经常是数据文
阅读更多2024-10-20
C#中实现事务
C#中实现事务
阅读更多2024-10-20
【LeetCode每日一题】——560.和为 K 的子数组
给你一个整数数组 nums 和一个整数 k ，请你统计并返回该数组中和为 k 的子数组的个数。子数组是数组中元素的连续非空序列。
阅读更多2024-10-20
「漏洞复现」满客宝智慧食堂系统 selectUserByOrgId 未授权访问漏洞
请勿利用文章内的相关技术从事非法测试，由于传播、利用此文所提供的信息而造成的任何直接或者间接的后果及损失，均由使用者本人负责，作者不为此承担任何责任。工具来自网络，安全性自测，如有侵权请联系删除。本次
阅读更多2024-10-20
React面试题目（从基本到高级）
React前端面试常见题目涵盖了React的基础概念、组件、状态管理、生命周期、性能优化等多个方面。
阅读更多2024-10-20
12.个人博客系统（Java项目基于spring和vue）
1 在校学习的学生，可用于日常学习使用或是毕业设计使用 2 毕业一到两年的开发人员，用于锻炼自己的独立功能模块设计能力，增强代码编写能力。 3 亦可以部署为商化项目使用。 4 需要完整资料及源码
阅读更多2024-10-20
YoloV8改进策略：注意力改进|DeBiFormer，可变形双级路由注意力|引入DeBiLevelRoutingAttention注意力模块（全网首发）
本次改进的核心在于将DeBiLevelRoutingAttention模块嵌入到YoloV8的主干网络中，具体位置是在SPPF（Spatial Pyramid Pooling Fast）模块之后。这一
阅读更多2024-10-20
word取消自动单词首字母大写
情况说明：在word输入单词后首字母会自动变成大写取消单词首字母大写步骤：（1）点击菜单栏文件（2）点击“更多”——>“选项”（3）点击“校对”——>“自动更正选项”（4）取消“句首字母大
阅读更多2024-10-20
web前端网页用户注册页面
【代码】web前端网页用户注册页面。
阅读更多2024-10-20