Flink广播流 BroadcastStream

🕗 发布于 2024-03-15 05:22 flink 大数据

文章目录

前言
BroadcastStream代码示例
Broadcast 使用注意事项

前言

Flink中的广播流（BroadcastStream）是一种特殊的流处理方式，它允许将一个流（通常是一个较小的流）广播到所有的并行任务中，从而实现在不同任务间共享数据的目的。广播流在处理配置信息、小数据集或者全局变量等场景下特别有用，因为这些数据需要在所有任务中保持一致且实时更新。

广播流的使用通常涉及以下步骤：

定义MapStateDescriptor：首先需要定义一个MapStateDescriptor来描述要广播的数据的格式。这个描述器指定了数据的键值对类型。
创建广播流：然后，需要将一个普通的流转换为广播流。这通常通过调用流的broadcast()方法实现，并将MapStateDescriptor作为参数传入。
连接广播流与非广播流：一旦有了广播流，就可以将其与一个或多个非广播流（无论是Keyed流还是Non-Keyed流）连接起来。这通过调用非广播流的connect()方法完成，并将广播流作为参数传入。连接后的流是一个BroadcastConnectedStream，它提供了process()方法用于处理数据。
处理数据：在process()方法中，可以编写逻辑来处理非广播流和广播流的数据。根据非广播流的类型（Keyed或Non-Keyed），需要传入相应的KeyedBroadcastProcessFunction或BroadcastProcessFunction类型的处理函数。

广播流的一个典型使用场景是在处理数据时需要实时动态改变配置。例如，当需要从MySQL数据库中实时查询和更新某些关键字过滤规则时，如果直接在计算函数中进行查询，可能会阻塞整个计算过程甚至导致任务停止。通过使用广播流，可以将这些配置信息广播到所有相关任务的实例中，然后在计算过程中直接使用这些配置信息，从而提高计算效率和实时性。

总的来说，Flink的广播流提供了一种有效的方式来实现不同任务间的数据共享和实时更新，适用于各种需要全局数据或配置的场景。

BroadcastStream代码示例

功能：将用户信息进行广播，从Kafka中读取用户访问记录，判断访问用户是否存在


import java.time.LocalDateTime;
import java.time.format.DateTimeFormatter;
import java.util.HashMap;
import java.util.List;
import java.util.Map;
import java.util.Properties;

import org.apache.commons.lang3.StringUtils;
import org.apache.flink.api.common.state.MapStateDescriptor;
import org.apache.flink.api.common.typeinfo.BasicTypeInfo;
import org.apache.flink.api.common.typeinfo.TypeHint;
import org.apache.flink.api.common.typeinfo.TypeInformation;
import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.shaded.jackson2.com.fasterxml.jackson.databind.JsonNode;
import org.apache.flink.shaded.jackson2.com.fasterxml.jackson.databind.node.ObjectNode;
import org.apache.flink.streaming.api.datastream.BroadcastConnectedStream;
import org.apache.flink.streaming.api.datastream.BroadcastStream;
import org.apache.flink.streaming.api.datastream.DataStreamSource;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.api.functions.co.BroadcastProcessFunction;
import org.apache.flink.streaming.connectors.kafka.FlinkKafkaConsumer;
import org.apache.flink.streaming.util.serialization.JSONKeyValueDeserializationSchema;
import org.apache.flink.util.Collector;

import flink.demo.data.UserVo;
/**
 * 多流connect,并进行join
 *
 */
public class BroadcastTest{

public static void main(String[] args) throws Exception {
final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
Properties proterties = new Properties();
proterties.setProperty("bootstrap.servers", "10.168.88.88:9092");
proterties.setProperty("group.id", "test");
proterties.setProperty("key.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
proterties.setProperty("value.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
//        proterties.setProperty("auto.offset.reset", "latest");

FlinkKafkaConsumer<ObjectNode> consumerVisit= new FlinkKafkaConsumer<>("test",
new JSONKeyValueDeserializationSchema(false), proterties);
DataStreamSource<ObjectNode> streamSource = env.addSource(consumerVisit);

DataStreamSource<Tuple2<String, List<UserVo>>> userStreamSource = env.addSource(new UserListSource());


MapStateDescriptor<String, List<UserVo>> descriptor =
      new MapStateDescriptor<>(
          "userStream",
          BasicTypeInfo.STRING_TYPE_INFO,
          TypeInformation.of(new TypeHint<List<UserVo>>() {}));

BroadcastStream<Tuple2<String, List<UserVo>>> broadcastStream = userStreamSource.broadcast(descriptor);
// 将数据流和控制流进行连接，利用控制流中的数据来控制字符串的输出
BroadcastConnectedStream<ObjectNode, Tuple2<String, List<UserVo>>> tmp=streamSource.connect(broadcastStream);
tmp.process(new UserPvProcessor()).print();

env.execute("kafkaTest");

}


private static class UserPvProcessor
extends BroadcastProcessFunction<ObjectNode, Tuple2<String, List<UserVo>>, String> {
private static final long serialVersionUID = 1L;
MapStateDescriptor<String, List<UserVo>> descriptor =
      new MapStateDescriptor<>(
          "userStream",
          BasicTypeInfo.STRING_TYPE_INFO,
          TypeInformation.of(new TypeHint<List<UserVo>>() {}));

@Override
//用户信息处理
public void processBroadcastElement(Tuple2<String, List<UserVo>> value, Context ctx, Collector<String> out)
throws Exception {
// 将接收到的控制数据放到 broadcast state 中  
ctx.getBroadcastState(descriptor).put(value.f0, value.f1);
// 打印控制信息
System.out.println(Thread.currentThread().getName() + " 接收到用户信息 ： "+value.f0+"   " + value.f1);
}

@Override
//数据流
public void processElement(ObjectNode element, ReadOnlyContext ctx, Collector<String> out) throws Exception {
// 从 broadcast state 中拿到用户列表信息
List<UserVo> userList = ctx.getBroadcastState(descriptor).get("userList");
String time=LocalDateTime.now().format(DateTimeFormatter.ofPattern("HH:mm:ss"));
if(userList!=null&&userList.size()>0) {

Map<String,String> userMap=new HashMap<>();
for(UserVo vo:userList) {
userMap.put(vo.getUserid(), vo.getUserName());
}
//System.out.println(userMap);
JsonNode value = element.get("value");
String userid=value.get("user").asText();
String userName=userMap.get(userid);
if (StringUtils.isNotBlank(userName)) {
out.collect(Thread.currentThread().getName()+"存在用户"+userid+"  "+userName +" "+time);
}else {
out.collect(Thread.currentThread().getName()+"不存在用户"+userid+" "+time );
}
}else {
out.collect(Thread.currentThread().getName()+"不存在用户"+element.get("value")+" "+time );
}
}
}
}

Broadcast 使用注意事项

同一个 operator 的各个 task 之间没有通信，广播流侧（processBroadcastElement）可以能修改 broadcast state，而数据流侧（processElement）只能读 broadcast state.；
需要保证所有 Operator task 对 broadcast state 的修改逻辑是相同的，否则会导致非预期的结果；
Operator tasks 之间收到的广播流元素的顺序可能不同：虽然所有元素最终都会下发给下游tasks，但是元素到达的顺序可能不同，所以更新state时不能依赖元素到达的顺序；
每个 task 对各自的 Broadcast state 都会做快照，防止热点问题；
目前不支持 RocksDB 保存 Broadcast state：Broadcast state 目前只保存在内存中，需要为其预留合适的内存

原文地址：https://blog.csdn.net/gwc791224/article/details/136716122

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：flink的自动类型推导：解决udf的通用类型问题
下一篇：有趣的前端知识（三）

C# yolo10使用onnx推理
本篇总结C#端使用yolo10的onnx文件做模型推理，主要使用Microsoft.ML.OnnxRuntime.Gpu这个库。需要注意的是Microsoft.ML.OnnxRuntime 和 Mic
阅读更多2024-11-18
【软件测试】界面、功能、性能、可靠性、安全性（SQL注入、越权）、易用性测试，静态和动态测试
功能测试是为了确保程序以期望的⽅式运⾏⽽按功能要求对软件进⾏的测试，通过对⼀个系统的所有的特性和功能都进⾏测试确保符合需求和规范。软件测试是软件⽣命周期中的⼀个重要环节，具有较⾼的复杂性，对于软件测试
阅读更多2024-11-18
nfs服务器
NFS，网络文件系统）是FreeBSD支持的文件系统中的一种，它允许网络中的计算机（不同的计算机、不同的操作系统）之间通过TCP/IP网络共享资源，主要在unix系列操作系统上使用。在NFS的应用中，
阅读更多2024-11-18
金山云大数据面试题及参考答案
栈（Stack）栈是一种数据结构，它遵循后进先出（LIFO - Last In First Out）的原则。可以把栈想象成一个一端封闭的圆筒，元素只能从开口的一端进出。在计算机内存中，栈主要用于存储函
阅读更多2024-11-18
c++自制游戏（优化）
cout << "******************0、退出************************" << endl;cout <<
阅读更多2024-11-18
C++ -class
类的简介
阅读更多2024-11-18
Cobalt Strike 4.8 用户指南-第九节 Pivoting（跳板）
Pivoting，在本手册中，指的是"将一个受害机器转为其他攻击和工具的跳板"。的Beacon提供了多种pivoting选项。前提是Beacon处于交互模式。交互模式意味着一个Be
阅读更多2024-11-18
达梦 DG
以上步骤和命令提供了达梦DGswitchover的详细操作流程，确保在执行切换操作前，所有的检查和准备工作都已就绪，以保证切换过程的顺利进行。• 检查备库监听配置文件，如tnsnames.ora，并提
阅读更多2024-11-18
Mybatis查询ORACLE数据库相近字段名称的值在映射出来的对象中被覆盖
oracle数据库中有一个表，一个字段的名叫做HEA_MUR，一个字段的名叫HEAMUR，两个字段都是字符串类型。
阅读更多2024-11-18
用Redis实现分布式锁
它的核心思想是通过多个独立的 Redis 实例来增加容错性，确保即使某些实例发生故障或数据不同步，仍然能够提供高可用的分布式锁服务。通常情况下，锁是“非重入”的，也就是说，锁只能被持有它的客户端释放，
阅读更多2024-11-18

Flink广播流 BroadcastStream

文章目录

前言

BroadcastStream代码示例

Broadcast 使用注意事项

相关文章