使用Apache Beam进行统一批处理与流处理

🕗 发布于 2024-07-11 06:40 apache

Apache Beam是一个开源的统一编程模型，用于定义和执行数据处理流水线，支持批处理和流处理。Beam旨在提供一个简单、可扩展且灵活的框架，适用于各种数据处理任务。本文将详细介绍如何使用Apache Beam进行批处理和流处理，并通过Java代码示例帮助新人理解。

1. Apache Beam简介

Apache Beam的核心概念包括：

Pipeline：代表整个数据处理任务。
PCollection：代表数据集，可以是有限的（批处理）或无限的（流处理）。
PTransform：代表数据转换操作。
Runner：负责执行Pipeline，可以是本地执行或分布式执行（如Google Cloud Dataflow、Apache Flink等）。

2. 安装与配置

首先，需要在项目中添加Apache Beam的依赖。在Maven项目中，可以在pom.xml中添加以下依赖：

<dependency>
    <groupId>org.apache.beam</groupId>
    <artifactId>beam-sdks-java-core</artifactId>
    <version>2.36.0</version>
</dependency>
<dependency>
    <groupId>org.apache.beam</groupId>
    <artifactId>beam-runners-direct-java</artifactId>
    <version>2.36.0</version>
</dependency>

3. 创建一个简单的批处理Pipeline

以下是一个简单的批处理示例，读取一个文本文件并计算每个单词的出现次数。

import org.apache.beam.sdk.Pipeline;
import org.apache.beam.sdk.io.TextIO;
import org.apache.beam.sdk.options.PipelineOptions;
import org.apache.beam.sdk.options.PipelineOptionsFactory;
import org.apache.beam.sdk.transforms.Count;
import org.apache.beam.sdk.transforms.FlatMapElements;
import org.apache.beam.sdk.transforms.MapElements;
import org.apache.beam.sdk.values.KV;
import org.apache.beam.sdk.values.TypeDescriptors;

public class WordCountBatch {
    public static void main(String[] args) {
        PipelineOptions options = PipelineOptionsFactory.create();
        Pipeline pipeline = Pipeline.create(options);

        pipeline
            .apply(TextIO.read().from("path/to/input.txt"))
            .apply(FlatMapElements.into(TypeDescriptors.strings())
                .via(line -> Arrays.asList(line.split("\\s+"))))
            .apply(Count.perElement())
            .apply(MapElements.into(TypeDescriptors.strings())
                .via(kv -> kv.getKey() + ": " + kv.getValue()))
            .apply(TextIO.write().to("path/to/output"));

        pipeline.run().waitUntilFinish();
    }
}

代码解释：

创建Pipeline：使用PipelineOptionsFactory.create()创建Pipeline选项，然后创建Pipeline实例。
读取文件：使用TextIO.read().from("path/to/input.txt")读取输入文件。
分割单词：使用FlatMapElements将每行文本分割成单词。
计数：使用Count.perElement()计算每个单词的出现次数。
格式化输出：使用MapElements将结果格式化为字符串。
写入文件：使用TextIO.write().to("path/to/output")将结果写入输出文件。
运行Pipeline：调用pipeline.run().waitUntilFinish()运行并等待Pipeline完成。

4. 创建一个简单的流处理Pipeline

以下是一个简单的流处理示例，从Kafka读取数据并计算每个单词的出现次数。

import org.apache.beam.sdk.Pipeline;
import org.apache.beam.sdk.io.kafka.KafkaIO;
import org.apache.beam.sdk.options.PipelineOptions;
import org.apache.beam.sdk.options.PipelineOptionsFactory;
import org.apache.beam.sdk.transforms.Count;
import org.apache.beam.sdk.transforms.FlatMapElements;
import org.apache.beam.sdk.transforms.MapElements;
import org.apache.beam.sdk.values.KV;
import org.apache.beam.sdk.values.TypeDescriptors;
import org.apache.kafka.common.serialization.StringDeserializer;

public class WordCountStream {
    public static void main(String[] args) {
        PipelineOptions options = PipelineOptionsFactory.create();
        Pipeline pipeline = Pipeline.create(options);

        pipeline
            .apply(KafkaIO.<String, String>read()
                .withBootstrapServers("localhost:9092")
                .withTopic("input-topic")
                .withKeyDeserializer(StringDeserializer.class)
                .withValueDeserializer(StringDeserializer.class)
                .withoutMetadata())
            .apply(MapElements.into(TypeDescriptors.strings())
                .via(kv -> kv.getValue()))
            .apply(FlatMapElements.into(TypeDescriptors.strings())
                .via(line -> Arrays.asList(line.split("\\s+"))))
            .apply(Count.perElement())
            .apply(MapElements.into(TypeDescriptors.strings())
                .via(kv -> kv.getKey() + ": " + kv.getValue()))
            .apply(TextIO.write().to("path/to/output"));

        pipeline.run().waitUntilFinish();
    }
}

代码解释：

创建Pipeline：使用PipelineOptionsFactory.create()创建Pipeline选项，然后创建Pipeline实例。
读取Kafka数据：使用KafkaIO.read()从Kafka读取数据。
提取值：使用MapElements提取Kafka记录的值。
分割单词：使用FlatMapElements将每行文本分割成单词。
计数：使用Count.perElement()计算每个单词的出现次数。
格式化输出：使用MapElements将结果格式化为字符串。
写入文件：使用TextIO.write().to("path/to/output")将结果写入输出文件。
运行Pipeline：调用pipeline.run().waitUntilFinish()运行并等待Pipeline完成。

5. 总结

Apache Beam提供了一个统一的编程模型，使得批处理和流处理可以无缝切换。通过上述示例，我们展示了如何使用Beam进行简单的批处理和流处理任务。希望这些示例能帮助新人更好地理解和使用Apache Beam。

通过深入学习Beam的各种转换和IO操作，你可以构建更复杂和强大的数据处理流水线，满足各种业务需求。

原文地址：https://blog.csdn.net/weixin_53840353/article/details/140313510

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：智慧城市的神经网络：Transformer模型在智能城市构建中的应用
下一篇：土壤分析仪：解密土壤之奥秘的科技先锋

Nginx反向代理简介，作用及配置；Nginx负载均衡简介，作用及配置；
Nginx反向代理简介，作用及配置；Nginx负载均衡简介，作用及配置；
阅读更多2024-09-25
如何设置网络黑名单禁止某些用户访问
设置网络黑名单以禁止某些用户访问你的网络资源通常涉及使用防火墙、路由器设置或服务器配置。以下是一些常见的方法：大多数防火墙（无论是硬件防火墙还是软件防火墙）都允许你创建黑名单来阻止特定IP地址或MAC
阅读更多2024-09-25
C++的哲学思想
C++的设计哲学：1. C++底层不应该基于任何其他语言 2.只为使用的东西付费 3.以低成本提供高级抽象
阅读更多2024-09-25
在 Visual Studio （VS2015）中搜索时使用正则表达式
在Visual Studio 2015（VS2015）中，使用搜索（通常是查找和替换功能）时，可以启用正则表达式模式来执行更复杂的文本匹配和替换操作。
阅读更多2024-09-25
JVM 的性能指标监测
JVM性能指标监测。
阅读更多2024-09-25
网站深色浅色切换案例-单页面，非全局。
【代码】网站深色浅色切换案例-单页面，非全局。
阅读更多2024-09-25
Leecode_SQL50_1280. Students and Examinations
注意一定要选择 a.subject_name！因为只有这个表是全的。若选择错了，有人的 subject_name 会是 null.用 CROSS JOIN 获取所有学生和科目的组合，不用有相同的列来
阅读更多2024-09-25
企微私域助手：重塑企业营销新生态的智能引擎
它不仅帮助企业高效管理私域流量，提升营销效率与转化率，更重要的是，通过深度链接用户，构建了长期稳定的用户关系，为企业的可持续发展奠定了坚实基础。3、内容营销与自动化营销：支持内容库管理，企业可预设营销
阅读更多2024-09-25
信息技术的快速发展与未来展望
近年来，信息技术（IT）的迅猛发展给全球经济、社会和个人生活带来了深刻的变革。无论是大数据、云计算，还是人工智能、物联网等技术，IT技术的进步正不断推动着各行各业的数字化转型。本文将探讨当前信息技术的
阅读更多2024-09-25
【C++进阶】2024年了set、map还搞不懂底层细节？
关联式容器也是用来存储数据的，与序列式容器不同的是，关联式容器里面存的是结构的键值对，在数据检索时比序列式容器效率更高。set：存储唯一键的集合multiset：存储可以有重复键的集合map：存储唯一
阅读更多2024-09-25

使用Apache Beam进行统一批处理与流处理

1. Apache Beam简介

2. 安装与配置

3. 创建一个简单的批处理Pipeline

代码解释：

4. 创建一个简单的流处理Pipeline

代码解释：

5. 总结

相关文章