【Flink】旁侧流的应用场景及代码实战

🕗 发布于 2024-10-06 04:05 flink 大数据 旁测流

0、引言

在 Flink 中，"旁侧流"（Side Output）是一种特殊的输出流，它可以从同一个操作中分离出不同的数据流，从而实现数据的多路复用。

一、应用场景

旁侧流在 Flink 中有多种应用场景，以下是一些常见的例子：

数据分流：在某些业务场景中，可能需要将数据根据特定条件分流到不同的输出，例如，将正常数据和异常数据分别发送到不同的主题或存储系统中。
特征工程：在机器学习或数据分析中，可能需要从原始数据流中提取不同的特征集，用于不同的模型训练或分析。
实时监控：在处理数据流时，可能需要实时监控数据的某些指标，如流量大小、异常率等，并将监控结果输出到监控系统。
数据备份：为了保证数据的安全性，可能需要将处理过程中的数据备份到不同的存储系统中，以便于数据恢复
迟到数据处理：在流处理系统中，对于晚于预期到达的数据，通过特定的机制（如水印和窗口）来识别并进行特殊处理，以确保数据的准确性和时效性，同时减少对整体处理流程的影响

二、代码实现

2.1 数据分流

描述：将数据根据特定条件分流到不同的输出，例如，将正常数据和异常数据分别发送到不同的主题或存储系统。

代码示例：


import org.apache.flink.streaming.api.datastream.DataStream;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.api.output.SideOutput;
import org.apache.flink.streaming.api.output.SideOutputMode;
import org.apache.flink.api.common.functions.FilterFunction;
import org.apache.flink.api.common.functions.MapFunction;

public class DataDivertingExample {
    public static void main(String[] args) throws Exception {
        final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

        // 定义两个旁侧输出标签
        final OutputTag<String> normalOutputTag = new OutputTag<String>("normal-output"){};
        final OutputTag<String> errorOutputTag = new OutputTag<String>("error-output"){};

        DataStream<String> input = env.fromElements("data1", "errorData", "data2", "data3");

        DataStream<String> normalDataStream = input
            .filter(new FilterFunction<String>() {
                @Override
                public boolean filter(String value) throws Exception {
                    return !value.contains("error");
                }
            })
            .map(new MapFunction<String, String>() {
                @Override
                public String map(String value) throws Exception {
                    return "Normal: " + value;
                }
            });

        DataStream<String> errorDataStream = input
            .filter(new FilterFunction<String>() {
                @Override
                public boolean filter(String value) throws Exception {
                    return value.contains("error");
                }
            })
            .map(new MapFunction<String, String>() {
                @Override
                public String map(String value) throws Exception {
                    return "Error: " + value;
                }
            })
            .output(errorOutputTag);

        // 获取旁侧输出流
        DataStream<String> normalSideOutput = normalDataStream.getSideOutput(normalOutputTag);
        DataStream<String> errorSideOutput = errorDataStream.getSideOutput(errorOutputTag);

        // 输出主数据流和旁侧数据流
        normalSideOutput.print("Normal Data Stream:");
        errorSideOutput.print("Error Data Stream:");

        env.execute("Flink Data Divert Example");
    }
}

2.2 特征工程

描述：从原始数据流中提取不同的特征集，用于不同的模型训练或分析。

代码示例：

import org.apache.flink.api.common.functions.MapFunction;
import org.apache.flink.streaming.api.datastream.DataStream;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.api.output.SideOutput;
import org.apache.flink.streaming.api.output.SideOutputMode;

public class FeatureEngineeringExample {
    public static void main(String[] args) throws Exception {
        final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

        final OutputTag<String> featureAOutputTag = new OutputTag<String>("feature-a-output"){};
        final OutputTag<String> featureBOutputTag = new OutputTag<String>("feature-b-output"){};

        DataStream<String> input = env.fromElements("feature1", "feature2", "feature3");

        DataStream<String> featureAStream = input.map(new MapFunction<String, String>() {
            @Override
            public String map(String value) throws Exception {
                // 假设提取特征A的逻辑
                return "Feature A: " + value;
            }
        }).output(featureAOutputTag);

        DataStream<String> featureBStream = input.map(new MapFunction<String, String>() {
            @Override
            public String map(String value) throws Exception {
                // 假设提取特征B的逻辑
                return "Feature B: " + value;
            }
        }).output(featureBOutputTag);

        // 获取旁侧输出流
        DataStream<String> featureASideOutput = featureAStream.getSideOutput(featureAOutputTag);
        DataStream<String> featureBSideOutput = featureBStream.getSideOutput(featureBOutputTag);

        // 输出特征数据流
        featureASideOutput.print("Feature A Stream:");
        featureBSideOutput.print("Feature B Stream:");

        env.execute("Flink Feature Engineering Example");
    }
}

2.3 实时监控

描述：实时监控数据流中的某些指标，如流量大小、异常率等，并将监控结果输出到监控系统。

代码示例：

import org.apache.flink.api.common.functions.ReduceFunction;
import org.apache.flink.streaming.api.datastream.DataStream;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.api.output.SideOutput;
import org.apache.flink.streaming.api.output.SideOutputMode;
import org.apache.flink.streaming.api.windowing.time.Time;

public class RealTimeMonitoringExample {
    public static void main(String[] args) throws Exception {
        final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

        final OutputTag<String> monitoringOutputTag = new OutputTag<String>("monitoring-output"){};

        DataStream<String> input = env.fromElements("data1", "data2", "data3");

        // 计算窗口内数据的数量
        DataStream<Long> countStream = input
            .keyBy((value) -> "monitoring-key") // 假设所有数据使用相同的key进行聚合
            .timeWindow(Time.seconds(10))
            .reduce(new ReduceFunction<String>() {
                @Override
                public String reduce(String value1, String value2) throws Exception {
                    return "Count: " + 1; // 简化示例，实际应计算数量
                }
            });

        // 将监控数据输出到旁侧流
        countStream.output(monitoringOutputTag);

        // 获取旁侧输出流
        DataStream<String> monitoringSideOutput = countStream.getSideOutput(monitoringOutputTag);

        // 输出监控数据流
        monitoringSideOutput.print("Monitoring Stream:");

        env.execute("Flink Real-time Monitoring Example");
    }
}

2.4 数据备份

描述：在处理数据流时，将处理过程中的数据备份到不同的存储系统中，以便于数据恢复。

代码示例：


import org.apache.flink.streaming.api.datastream.DataStream;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.api.output.SideOutput;
import org.apache.flink.streaming.api.output.SideOutputMode;

public class DataBackupExample {
    public static void main(String[] args) throws Exception {
        final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

        final OutputTag<String> backupOutputTag = new OutputTag<String>("backup-output"){};

        DataStream<String> input = env.fromElements("data1", "data2", "data3");

        DataStream<String> backupStream = input.map(new MapFunction<String, String>() {
            @Override
            public String map(String value) throws Exception {
                // 假设备份数据的逻辑
                return "Backup: " + value;
            }
        }).output(backupOutputTag);

        // 获取旁侧输出流
        DataStream<String> backupSideOutput = backupStream.getSideOutput(backupOutputTag);

        // 输出备份数据流
        backupSideOutput.print("Backup Data Stream:");

        env.execute("Flink Data Backup Example");
    }
}

2.5 迟到数据处理

描述：在实时数据流处理中，由于网络延迟或数据生成的不均匀性，数据可能会迟到。Flink 允许定义水印（Watermark）来处理迟到数据，旁侧流可以用于将迟到的数据分流出来进行特殊处理。

代码示例：

import org.apache.flink.api.common.functions.MapFunction;
import org.apache.flink.streaming.api.datastream.DataStream;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.api.watermark.WatermarkGenerator;
import org.apache.flink.streaming.api.windowing.time.Time;
import org.apache.flink.streaming.api.windowing.assigners.TumblingProcessingTimeWindows;
import org.apache.flink.streaming.api.windowing.evictors.Evictor;
import org.apache.flink.streaming.api.output.SideOutput;
import org.apache.flink.streaming.api.output.SideOutputMode;

public class LateDataHandlingExample {
    public static void main(String[] args) throws Exception {
        final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

        final OutputTag<String> lateOutputTag = new OutputTag<String>("late-data-output"){};
        
        DataStream<String> input = env.fromElements("event1", "event2", "event3");

        // 定义水印生成器，这里简化为每隔5秒生成一个时间戳为当前时间的水印
        WatermarkGenerator<String> watermarkGenerator = WatermarkGenerator.forBoundedOutOfOrderness((Time.seconds(5)), input)
            .withTimestampAssigner((value, timestamp) -> timestamp);

        // 使用旁侧流处理迟到数据
        DataStream<String> mainDataStream = input
            .assignTimestampsAndWatermarks(watermarkGenerator)
            .keyBy((value) -> "key") // 假设所有数据使用相同的key
            .window(TumblingProcessingTimeWindows.of(Time.seconds(10)))
            .sideOutputLateData(lateOutputTag, Evictor.<String>noOp());

        // 获取旁侧输出流
        DataStream<String> lateDataStream = mainDataStream.getSideOutput(lateOutputTag);

        // 输出主数据流和迟到数据流
        mainDataStream.print("On-Time Data Stream:");
        lateDataStream.print("Late Data Stream:");

        env.execute("Flink Late Data Handling Example");
    }
}

三、注意事项

性能影响：使用旁侧流可能会对性能产生一定的影响，因为数据需要被复制到不同的输出。
资源管理：旁侧流也需要资源来存储和管理，因此在设计系统时需要考虑资源的分配。
数据一致性：在使用旁侧流时，需要确保数据的一致性，特别是在有状态的 Flink 应用中。

原文地址：https://blog.csdn.net/u011487470/article/details/142714370

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：春秋云镜靶场之CVE-2022-28525
下一篇：Windows应急响应-Auto病毒

MySQL：2059 - Authentication plugin ‘caching_sha2_password‘ cannot be loaded
解决 MySQL 客户端连接服务器报：“2059 - Authentication plugin 'caching_sha2_password' cannot be loaded”错的问题
阅读更多2024-10-06
ffmpeg源码分析（七）结构体之AVStream
AVStream是存储每一个视频/音频/字幕/其它流信息的结构体。
阅读更多2024-10-06
【Linux的那些事】shell命名及Linux权限的理解
一、shell命令以及运行原理Linux严格意义上说的是一个，我们称之为“核心“ ，但我们一般用户，不能直接使用kernel。而是通过kernel的“外壳”程序，也就是所谓的shell，来与kerne
阅读更多2024-10-06
初识数据结构--时间复杂度和空间复杂度
数据结构是计算机存储、组织数据的方式(指相互之间存在一种或多种特定关系的数据元素的集合。。
阅读更多2024-10-06
基础算法之二分查找--Java实现(下)--LeetCode题解:山脉数组的峰顶索引-寻找峰值-寻找旋转排序数组中的最小值-点名
若是 mid 的前一个元素小于 mid，那么 mid落在左边这一段，所以答案在右边，但是 mid可能就是答案，所以 left = mid。· 若是 mid的前一个元素大于 mid，那么 mid落在右边
阅读更多2024-10-06
vite学习教程01、vite构建vue2
本文详细介绍了如何使用Vite初始化Vue 2项目，包括创建项目、安装依赖、修改配置文件、安装Vue 2及其Vite插件，并启动开发服务的完整流程。通过具体命令和代码示例，文章指导读者一步步完成从项目
阅读更多2024-10-06
网站建设完成后，切勿让公司官网成为摆设
然而，许多企业在网站建设完成后，往往忽视了对官网的持续运营和维护，导致官网逐渐沦为摆设，无法发挥其应有的作用。企业应该充分利用社交媒体平台，如微博、微信、抖音等，与用户进行互动，传播企业文化，推广产品
阅读更多2024-10-06
Leetcode 1631. 最小体力消耗路径
一开始你在最左上角的格子 (0, 0) ，且你希望去最右下角的格子 (rows-1, columns-1) （注意下标从 0 开始编号）。你每次可以往上，下，左，右四个方向之一移动，你想要找到耗费
阅读更多2024-10-06
Lucene最新最全面试题及参考答案
倒排索引是一种将文档中的词语和文档编号对应起来的数据结构。在传统的正向索引中，是根据文档来查找其中包含的词语，而倒排索引则是反过来，根据词语来查找包含该词语的文档。倒排索引主要由词典和 posting
阅读更多2024-10-06
今日指数项目个股周K线功能实现
服务路径：/api/quot/stock/screen/weekkline。股票ID、一周内最高价、一周内最低价、周1开盘价、周5的收盘价、股票ID、一周内最高价、一周内最低价、周1开盘价
阅读更多2024-10-06

【Flink】旁侧流的应用场景及代码实战

0、引言

一、应用场景

二、代码实现

2.1 数据分流

2.2 特征工程

2.3 实时监控

2.4 数据备份

2.5 迟到数据处理

三、注意事项

相关文章