Flink简介及小案例

🕗 发布于 2024-10-16 15:00 flink 大数据

Apache Flink 是一个用于分布式数据流处理的框架，常用于实时大数据处理和批处理。Flink 的操作可以分为两个方面：安装配置和编写任务代码。下面对这两块做一下简单的介绍。

1. 安装和配置 Flink

(1) 下载并安装 Flink

从 Apache Flink 的官网上下载对应的二进制包 Flink 下载页面。

# 使用wget下载
wget https://downloads.apache.org/flink/flink-1.14.4/flink-1.14.4-bin-scala_2.12.tgz

# 解压
tar -xzf flink-1.14.4-bin-scala_2.12.tgz
cd flink-1.14.4

(2) 配置 Flink

配置文件路径：conf/flink-conf.yaml
可修改的参数：
- jobmanager.rpc.address: 设置为 JobManager 的主机名或 IP 地址。
- taskmanager.numberOfTaskSlots: 每个 TaskManager 可以配置的 slot 数量。

(3) 启动 Flink 集群

Flink 可以本地运行，也可以运行在分布式集群上。下面展示在本地启动 Flink 的命令：

# 启动 Flink 集群
./bin/start-cluster.sh

启动后可以通过浏览器访问 localhost:8081 来查看 Flink Web UI，查看作业状态和集群信息。

2. 编写 Flink 任务代码

Flink 任务主要分为两类：DataStream API（用于流处理）和 DataSet API（用于批处理）。这里我们主要介绍流处理。

(1) 设置开发环境

通常我们使用 Java 或 Scala 编写 Flink 应用。在 Maven 项目中，可以通过添加以下依赖来集成 Flink：

<dependency>
    <groupId>org.apache.flink</groupId>
    <artifactId>flink-streaming-java_2.12</artifactId>
    <version>1.14.4</version>
</dependency>

(2) 示例代码

一个简单的流处理任务的 Java 代码如下：

import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;

public class FlinkExample {
    public static void main(String[] args) throws Exception {
        // 创建执行环境
        final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

        // 生成数据源
        DataStream<String> text = env.fromElements("hello", "world", "flink", "streaming");

        // 进行简单的转换操作，如 map
        DataStream<String> upperCaseStream = text.map(String::toUpperCase);

        // 打印结果到控制台
        upperCaseStream.print();

        // 启动程序
        env.execute("Flink Streaming Example");
    }
}

(3) 提交任务

当任务编写完成后，可以通过以下命令将任务提交到 Flink 集群：

# 提交任务到 Flink 集群
./bin/flink run -c <MainClass> <JAR文件路径>

例如：

./bin/flink run -c com.example.FlinkExample /path/to/flink-example.jar

3. 常用操作

Flink 提供了很多常用操作用于流数据处理：

map(): 对流中的每个元素应用一个函数。
filter(): 过滤掉不符合条件的元素。
keyBy(): 基于某个字段对流进行分组。
window(): 对流数据进行窗口化处理（如基于时间窗口或数量窗口）。
reduce(): 聚合操作，对窗口中的数据进行累积处理。

这些操作组合起来可以实现复杂的实时数据处理逻辑。

总结

Flink 的操作主要包括集群的搭建与配置，以及通过 API 编写数据处理任务。安装和启动相对简单，而任务的实现可以根据需求组合不同的算子来实现复杂的处理逻辑。如果你有具体的任务需求或想了解某些细节，我可以为你提供更详细的帮助。

原文地址：https://blog.csdn.net/weixin_45940433/article/details/142937588

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：什么是世界币？
下一篇：自动化测试数据：如何正确地选择不同格式文件「详细介绍」？

js判断字符包含数字字母特殊符号不可包含中文
可以使用正则表达式来检查字符串是否包含数字、字母和特殊符号，同时不包含中文字符。{|}~])` 确保字符串中至少包含一个特殊符号。确保字符串中至少包含一个字母。确保字符串中至少包含一个数字。分别指定字
阅读更多2024-10-17
计算机毕业设计 | vue+SpringBoot图书借阅管理系统图书管理系统(附源码)
vue+SpringBoot图书借阅管理系统。管理员模块：登录、书籍管理、图书类别管理、借阅信息管理、用户管理、修改密码；读者模块：注册、登录、查询图书信息、借阅和归还图书、查看个人借阅记录、修改密码
阅读更多2024-10-17
深入解析JavaScript中的Object.freeze()：冻结对象，保护数据完整性
软考鸭微信小程序学软考,来软考鸭!提供软考免费软考讲解视频、题库、软考试题、软考模考、软考查分、软考咨询等服务。
阅读更多2024-10-17
24/10/12 算法笔记 NiN
因此，在处理具有明显空间结构的数据（如图像）时，通常先使用卷积层来提取空间特征，然后再使用全连接层进行分类或其他任务。使用1*1卷积层来实现逐像素的全连接操作，有助于在通道维度上整合特征，同时保持空间
阅读更多2024-10-17
【分布式训练（5）】无法 kill PID？如何 kill 休眠中的 GPU 占用进程
所以对这些 .cursor-server 的 PID 号进行 kill 就可以解决该问题啦。
阅读更多2024-10-17
AI程序开发体验之CRM系统
CRM系统是企业用于管理与客户关系的软件，它通过集成多种功能来提升客户满意度和企业效率。：这是CRM系统的基础功能，允许企业存储和组织客户的联系信息、购买历史和偏好等数据，以便快速访问并提供个性化服务
阅读更多2024-10-17
不看后悔！45个与生成树相关的术语，赶紧收藏
例如，10Mbps 端口的成本为 100，100Mbps 端口的成本为 19，1Gbps 端口的成本为 4。在生成树协议所处的学习状态之下，端口会对所接收到的数据包的源 MAC 地址予以学习并记录下来
阅读更多2024-10-17
VLAN资源池
原VLAN资源池中有VLAN 5、6、7、8、9、10、15、18、20、21、30，从资源池中移除15后，资源池中剩下的VLAN为 5、6、7、8、9、10、18、20、21、30，按照题目描述格式
阅读更多2024-10-17
CUDA 全局内存
全局内存在片外。特点是：容量最大、延迟最大、使用最多全局内存中的数据是所有线程可见的，Host端可见，且具有与程序相同的生命周期。
阅读更多2024-10-17
综合小案例
综合小案例
阅读更多2024-10-17