大数据学习(40)- Flink执行流

🕗 发布于 2025-01-23 17:01 大数据 学习 flink

&&大数据学习&&

🔥系列专栏： 👑哲学语录: 承认自己的无知，乃是开启智慧的大门
💖如果觉得博主的文章还不错的话，请点赞👍+收藏⭐️+留言📝支持一下博主哦🤞

算子链（Operator Chain）

1）算子间的数据传输

一个数据流在算子之间传输数据的形式可以是一对一（one-to-one）的直通（forwarding）模式，也可以是打乱的重分区（redistributing）模式，具体是哪一种形式，取决于算子的种类。

（1）一对一（One-to-one，forwarding）

这种模式下，数据流维护着分区以及元素的顺序。比如图中的source和map算子，source算子读取数据之后，可以直接发送给map算子做处理，它们之间不需要重新分区，也不需要调整数据的顺序。这就意味着map 算子的子任务，看到的元素个数和顺序跟source 算子的子任务产生的完全一样，保证着“一对一”的关系。map、filter、flatMap等算子都是这种one-to-one的对应关系。这种关系类似于Spark中的窄依赖。

（2）重分区（Redistributing）

在这种模式下，数据流的分区会发生改变。比如图中的map和后面的keyBy/window算子之间，以及keyBy/window算子和Sink算子之间，都是这样的关系。

每一个算子的子任务，会根据数据传输的策略，把数据发送到不同的下游目标任务。这些传输方式都会引起重分区的过程，这一过程类似于Spark中的shuffle。

2）合并算子链

在Flink中，并行度相同的一对一（one to one）算子操作，可以直接链接在一起形成一个“大”的任务（task），这样原来的算子就成为了真正任务里的一部分，如下图所示。每个task会被一个线程执行。这样的技术被称为“算子链”（Operator Chain）。

上图中Source和map之间满足了算子链的要求，所以可以直接合并在一起，形成了一个任务；因为并行度为2，所以合并后的任务也有两个并行子任务。这样，这个数据流图所表示的作业最终会有5个任务，由5个线程并行执行。

将算子链接成task是非常有效的优化：可以减少线程之间的切换和基于缓存区的数据交换，在减少时延的同时提升吞吐量。

Flink默认会按照算子链的原则进行链接合并，如果我们想要禁止合并或者自行定义，也可以在代码中对算子做一些特定的设置：

// 禁用算子链

.map(word -> Tuple2.of(word, 1L)).disableChaining();

// 从当前算子开始新链

.map(word -> Tuple2.of(word, 1L)).startNewChain()

4.2.3 任务槽（Task Slots）

1）任务槽（Task Slots）

Flink中每一个TaskManager都是一个JVM进程，它可以启动多个独立的线程，来并行执行多个子任务（subtask）。

很显然，TaskManager的计算资源是有限的，并行的任务越多，每个线程的资源就会越少。那一个TaskManager到底能并行处理多少个任务呢？为了控制并发量，我们需要在TaskManager上对每个任务运行所占用的资源做出明确的划分，这就是所谓的任务槽（task slots）。

每个任务槽（task slot）其实表示了TaskManager拥有计算资源的一个固定大小的子集。这些资源就是用来独立执行一个子任务的。

2）任务槽数量的设置

在Flink的/opt/module/flink-1.17.0/conf/flink-conf.yaml配置文件中，可以设置TaskManager的slot数量，默认是1个slot。

taskmanager.numberOfTaskSlots: 8

需要注意的是，slot目前仅仅用来隔离内存，不会涉及CPU的隔离。在具体应用时，可以将slot数量配置为机器的CPU核心数，尽量避免不同任务之间对CPU的竞争。这也是开发环境默认并行度设为机器CPU数量的原因。

3）任务对任务槽的共享

默认情况下，Flink是允许子任务共享slot的。如果我们保持sink任务并行度为1不变，而作业提交时设置全局并行度为6，那么前两个任务节点就会各自有6个并行子任务，整个流处理程序则有13个子任务。如上图所示，只要属于同一个作业，那么对于不同任务节点（算子）的并行子任务，就可以放到同一个slot上执行。所以对于第一个任务节点source→map，它的6个并行子任务必须分到不同的slot上，而第二个任务节点keyBy/window/apply的并行子任务却可以和第一个任务节点共享slot。

当我们将资源密集型和非密集型的任务同时放到一个slot中，它们就可以自行分配对资源占用的比例，从而保证最重的活平均分配给所有的TaskManager。

slot共享另一个好处就是允许我们保存完整的作业管道。这样一来，即使某个TaskManager出现故障宕机，其他节点也可以完全不受影响，作业的任务可以继续执行。

当然，Flink默认是允许slot共享的，如果希望某个算子对应的任务完全独占一个slot，或者只有某一部分算子共享slot，我们也可以通过设置“slot共享组”手动指定：

.map(word -> Tuple2.of(word, 1L)).slotSharingGroup("1");

这样，只有属于同一个slot共享组的子任务，才会开启slot共享；不同组之间的任务是完全隔离的，必须分配到不同的slot上。在这种场景下，总共需要的slot数量，就是各个slot共享组最大并行度的总和。

原文地址：https://blog.csdn.net/weixin_61006262/article/details/145300801

免责声明：本站文章内容转载自网络资源，如侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：AIGC大模型详解（ChatGPT,Cursor,豆包，文心一格）
下一篇：Games104——渲染中光和材质的数学魔法

Langchain+文心一言调用
在“我的应用”中查看申请的应用，找到"APPID","APISecret","APIKey"调用模型api，使用tokens。选择自己想要的
阅读更多2025-01-24
Android实训十数据存储和访问
1）用SharedPreferences类，当点击”写入xml文件”按钮, 把“输入你想写入内容”控件中的数据写入到login.xml文件中；2）用SharedPreferences类，当点击”读取内
阅读更多2025-01-24
【JVM】调优
【JVM】调优
阅读更多2025-01-24
计算机工程：解锁未来科技之门！
为了保障用户的信息和财产安全，科研团队不断研发新的加密技术和防护措施，以应对日益复杂的网络攻击。值得一提的是，《计算机工程》和《计算机学报》作为该领域的权威学术刊物，报道了大量高水平的科研成果。随着科
阅读更多2025-01-24
汽车敏捷开发：项目经理如何精准跟进项目流程
在汽车行业敏捷开发的复杂旅程中，项目经理作为关键的引领者，其对项目流程的有效跟进至关重要。通过在项目启动阶段明确目标范围、组建团队、制定计划；在需求管理阶段做好收集整理、优先级排序和变更管理；在迭代执
阅读更多2025-01-24
spring专题笔记（五）：依赖注入--p命名空间注入、c命名空间注入、util命名空间
util命名空间注入主要是针对于集合，例如这些集合的数据信息需要在好几个类中引入，我们就可以使用util命名空间。我们就可以通过util命名空间的注入的方式，注入同一份配置文件的数据。用法：把我们需要
阅读更多2025-01-24
Android 安卓python的环境，termux下载地址
该版本的 APK 是为 Android 7 及以上版本设计的。如果你的设备运行的是 Android 5 或 6，应选择。是 Termux 应用的一个测试版本，适用于 Android 7 及以上版本。：
阅读更多2025-01-24
CompletableFuture#getNow 源码解析&最佳实践
的结果，同时允许指定一个默认值用于未完成的情况。总之，这个方法提供了一种非阻塞的方式来获取。
阅读更多2025-01-24
ES filter和post_filter的区别
ES filter和post_filter的区别
阅读更多2025-01-24
如何成为一名LLM（大语言模型）工程师
首先，成为LLM工程师的基础是理解LLM的概念及其工作原理。这些模型通过处理大量的文本数据进行训练，学习语言的结构、语法、语义等，从而能够执行一系列任务，如文本生成、情感分析、语言翻译等。成为一名LL
阅读更多2025-01-24