大数据学习(39)- Flink并行度

🕗 发布于 2025-01-23 10:02 大数据 学习 flink

&&大数据学习&&

🔥系列专栏： 👑哲学语录: 承认自己的无知，乃是开启智慧的大门
💖如果觉得博主的文章还不错的话，请点赞👍+收藏⭐️+留言📝支持一下博主哦🤞

1）并行子任务和并行度

当要处理的数据量非常大时，我们可以把一个算子操作，“复制”多份到多个节点，数据来了之后就可以到其中任意一个执行。这样一来，一个算子任务就被拆分成了多个并行的“子任务”（subtasks），再将它们分发到不同节点，就真正实现了并行计算。

在Flink执行过程中，每一个算子（operator）可以包含一个或多个子任务（operator subtask），这些子任务在不同的线程、不同的物理机或不同的容器中完全独立地执行。

一个特定算子的子任务（subtask）的个数被称之为其并行度（parallelism）。这样，包含并行子任务的数据流，就是并行数据流，它需要多个分区（stream partition）来分配并行任务。一般情况下，一个流程序的并行度，可以认为就是其所有算子中最大的并行度。一个程序中，不同的算子可能具有不同的并行度。

例如：如上图所示，当前数据流中有source、map、window、sink四个算子，其中sink算子的并行度为1，其他算子的并行度都为2。所以这段流处理程序的并行度就是2。

2）并行度的设置

在Flink中，可以用不同的方法来设置并行度，它们的有效范围和优先级别也是不同的。

（1）代码中设置

我们在代码中，可以很简单地在算子后跟着调用setParallelism()方法，来设置当前算子的并行度：

stream.map(word -> Tuple2.of(word, 1L)).setParallelism(2);

这种方式设置的并行度，只针对当前算子有效。

另外，我们也可以直接调用执行环境的setParallelism()方法，全局设定并行度：

env.setParallelism(2);

这样代码中所有算子，默认的并行度就都为2了。我们一般不会在程序中设置全局并行度，因为如果在程序中对全局并行度进行硬编码，会导致无法动态扩容。

这里要注意的是，由于keyBy不是算子，所以无法对keyBy设置并行度。

（2）提交应用时设置

在使用flink run命令提交应用时，可以增加-p参数来指定当前应用程序执行的并行度，它的作用类似于执行环境的全局设置：

bin/flink run –p 2 –c com.atguigu.wc.SocketStreamWordCount 

./FlinkTutorial-1.0-SNAPSHOT.jar

如果我们直接在Web UI上提交作业，也可以在对应输入框中直接添加并行度。

（3）配置文件中设置

我们还可以直接在集群的配置文件flink-conf.yaml中直接更改默认并行度：

parallelism.default: 2

这个设置对于整个集群上提交的所有作业有效，初始值为1。无论在代码中设置、还是提交时的-p参数，都不是必须的；所以在没有指定并行度的时候，就会采用配置文件中的集群默认并行度。在开发环境中，没有配置文件，默认并行度就是当前机器的CPU核心数。

原文地址：https://blog.csdn.net/weixin_61006262/article/details/145300758

免责声明：本站文章内容转载自网络资源，如侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：windows下本地部署安装hadoop+scala+spark-【不需要虚拟机】
下一篇：Github 2025-01-22 C开源项目日报 Top9

OpenAI-Edge-TTS的使用
例如：【python】 import edge_ttstext = "这是一段需要转换为语音的文本"voice = "zh-CN-YunyangNeural"c
阅读更多2025-01-23
文件快递柜：匿名口令分享工具，轻松安全地存取文本与文件
正是这样一款简单高效的工具，它支持匿名、轻量级的文件与文本分享，无需注册登录，通过随机生成的口令完成存取，就像取快递一样方便快捷。对于初学者来说，文件快递柜是一个功能齐全、代码清晰的项目，适合作为 W
阅读更多2025-01-23
鸿蒙模块概念和应用启动相关类（HAP、HAR、HSP、AbilityStage、UIAbility、WindowStage、window）
hap包是手机安装的最小单元，1个app包含一个或多个hap包。对应到代码工程中是一个module,每个module会有一个module.json5文件作为该module的配置文件，在src/main
阅读更多2025-01-23
AIP-126 枚举
一个域的值集合是一组数量有限的具体值，这是很常见的。此时使用枚举（缩写为“enums”）可有助于明确表达值集合的范围。
阅读更多2025-01-23
【2024年华为OD机试】 (E卷,200分) - 寻找符合要求的最长子串（JavaScript&Java & Python&C/C++）
本题的核心是通过滑动窗口的思想，动态维护一个满足条件的子串窗口，并记录窗口的最大长度。排除指定字符。限制字符的出现次数。高效地调整窗口边界。通过合理的滑动窗口实现，可以在O(n)的时间复杂度内解决问题
阅读更多2025-01-23
使用docker部署自托管密码管理器(vaultwarden)
部署完成后的检查清单✅ 访问 Web 界面确认服务正常运行✅ 完成管理员账号的注册与设置✅ 验证 HTTPS 证书配置是否正确✅ 确认数据备份路径已正确映射安全建议1.定期备份建议每周备份一次数据库将
阅读更多2025-01-23
docker部署flask项目后，请求时总是报拒绝连接错误
docker部署flask项目时，在容器内可以正常访问服务，但是在容器外部，即使在本地服务器也没有办法访问服务，查看了很多解决方法都不能解决这个问题，报错信息如下“curl: (56) Recv fa
阅读更多2025-01-23
java中的泛型
本文详细的介绍了java中的泛型，包括泛型的定义，泛型的使用以及注意事项
阅读更多2025-01-23
Spring Boot 事件驱动：构建灵活可扩展的应用
}} }} }
阅读更多2025-01-23
spring ApplicationContext的事件监听机制
实现ApplicationListener接口定义listenereg:事件发布测试controller中测试发布事件测试输出：本例用springboot开启一个web项目，内置了 bean 直接获取
阅读更多2025-01-23