Spark实时（四）：Strctured Streaming简单应用

🕗 发布于 2024-07-24 14:01 spark 大数据 分布式

文章目录

Strctured Streaming简单应用

一、Output Modes输出模式

二、Streaming Table API

三、Triggers

1、unspecified（默认模式）

2、Fixed interval micro-batches（固定间隔批次）

3、 One-time micro-batch （仅一次触发）

4、Continuous with fixed checkpoint interval（连续处理）

Strctured Streaming简单应用

一、Output Modes输出模式

Structured Streaming中结果输出时outputMode可以设置三种模式，三种默认区别如下：

Append Mode（默认模式）：追加模式，只有自上次触发后追加到结果表中的新行才会被输出。只有select、where、map、flatmap、filter、join查询支持追加模式。
Complete Mode（完整模式）：将整个更新的结果输出。仅可用于代码中有聚合查询情况，代码中没有聚合查询不能使用。
Update Mode（更新模式）：自Spark2.1.1版本后可用，只有自上次触发后更新的行才会被输出。这种模式仅仅输出自上次触发以来发生更改的行。如果结果数据没有聚合操作那么相当于Append Mode。

二、Streaming Table API

在Spark3.1版本之后，我们可以通过DataStreamReader.table()方式实时读取流式表中的数据，使用DataStreamWriter.toTable()向表中实时写数据。

案例：读取Socket数据实时写入到Spark流表中，然后读取流表数据展示数据。

代码示例如下：

package com.lanson.structuredStreaming

import org.apache.spark.sql.streaming.StreamingQuery
import org.apache.spark.sql.{DataFrame, SparkSession}

object StreamTableAPI {
  def main(args: Array[String]): Unit = {
    //1.创建对象
    val spark: SparkSession = SparkSession.builder().master("local")
      .appName("StreamTableAPI")
      .config("spark.sql.shuffle.partitions", 1)
      .config("spark.sql.warehouse.dir", "./my-spark-warehouse")
      .getOrCreate()

    spark.sparkContext.setLogLevel("Error");
    import spark.implicits._

    //2.读取socket数据，注册流表
    val df: DataFrame = spark.readStream
      .format("socket")
      .option("host", "node3")
      .option("port", 9999)
      .load()

    //3.对df进行转换
    val personinfo: DataFrame = df.as[String]
      .map(line => {
        val arr: Array[String] = line.split(",")
        (arr(0).toInt, arr(1), arr(2).toInt)
      }).toDF("id", "name", "age")

    //4.将以上personinfo 写入到流表中
    personinfo.writeStream
      .option("checkpointLocation","./checkpoint/dir1")
      .toTable("mytbl")

    import org.apache.spark.sql.functions._

    //5.读取mytbl 流表中的数据
    val query: StreamingQuery = spark.readStream
      .table("mytbl")
      .withColumn("new_age", col("age").plus(6))
      .select("id", "name", "age", "new_age")
      .writeStream
      .format("console")
      .start()

    query.awaitTermination()

  }
}

以上代码编写完成后启动，向控制台输入以下数据：

1,zs,18
2,ls,19
3,ww,20
4,ml,21
5,tq,22

结果输入如下：

注意：以上代码执行时Spark中写出的表由Spark 参数”spark.sql.warehouse.dir”指定的路径临时维护数据，每次执行时，需要将该路径下的表数据清空。

三、Triggers

Structured Streaming Triggers 决定了流式数据被处理时是微批处理还是连续实时处理，以下是支持的Triggers：

实时处理，以下是支持的Triggers:

Trigger Type	描述
Unspecified(默认)	代码使用：Trigger.ProcessingTime(0L)。代码中没有明确指定触发类型则查询默认以微批模式执行，表示尽可能快的执行查询。
Fixed interval micro-batches(固定间隔批次)	代码使用：Trigger.ProcessingTime(long interval,TimeUnit timeUnit) 查询将以微批模式处理，批次间隔根据用户指定的时间间隔决定如果前一个微批处理时间在时间间隔内完成，则会等待间隔时间完成后再开始下一个微批处理如果前一个微批处理时间超过了时间间隔，那么下一个微批处理将在前一个微批处理完成后立即开始。如果没有新数据可用，则不会启动微批处理。
One-time micro-batch(仅一次性触发)	代码使用：Trigger.Once() 只执行一个微批次查询所有可用数据，然后自动停止，适用于一次性作业。
Continuous with fixed checkpoint interval(以固定checkpoint interval连续处理（实验阶段）)	代码使用：Trigger.Continuous(long interval,TimeUnit timeUnit) 以固定的Checkpoint间隔(interval)连续处理。在这种模式下，连续处理引擎将每隔一定的间隔(interval)做一次checkpoint，可获得低至1ms的延迟。

下面以读取Socket数据为例，Scala代码演示各个模式

1、unspecified（默认模式）

代码如下：

//3.默认微批模式执行查询，尽快将结果写出到控制台
val query: StreamingQuery = frame.writeStream
  .format("console")
  .start()

query.awaitTermination()

2、Fixed interval micro-batches（固定间隔批次）

代码如下：

//3.用户指定固定间隔批次触发查询
    val query: StreamingQuery = frame.writeStream
      .format("console")
      .trigger(Trigger.ProcessingTime("5 seconds"))
//      .trigger(Trigger.ProcessingTime(5,TimeUnit.SECONDS)
      .start()
    query.awaitTermination()

注意：这种固定间隔批次指的是第一批次处理完成，等待间隔时间，然后处理第二批次数据，依次类推。

3、 One-time micro-batch （仅一次触发）

代码如下：

//4.仅一次触发执行
val query: StreamingQuery = frame.writeStream
  .format("console")
  .trigger(Trigger.Once())
  .start()
query.awaitTermination()

4、Continuous with fixed checkpoint interval（连续处理）

Continuous不再是周期性启动task的批量执行数，而是启动长期运行的task，而是不断一个一个数据进行处理，周期性的通过指定checkpoint来记录状态（如果不指定checkpoint目录，会将状态记录在Temp目录下），保证exactly-once语义，这样就可以实现低延迟。详细内容可以参照后续“Continuous处理”章节。

代码如下：

//3.Continuous 连续触发执行
val query: StreamingQuery = frame.writeStream
  .format("console")
  //每10ms 记录一次状态，而不是执行一次
  .trigger(Trigger.Continuous(10,TimeUnit.MILLISECONDS))
  .option("checkpointLocation","./checkpint/dir4")
  .start()
query.awaitTermination()

📢博客主页：https://lansonli.blog.csdn.net
📢欢迎点赞 👍 收藏 ⭐留言 📝 如有错误敬请指正！
📢本文由 Lansonli 原创，首发于 CSDN博客🙉
📢停下休息的时候不要忘了别人还在奔跑，希望大家抓紧时间学习，全力奔赴更美好的生活✨

原文地址：https://blog.csdn.net/xiaoweite1/article/details/140654822

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：ROS2入门到精通—— 2-10 ROS2实战：自定义规划插件——基于录制的固定路径的全局规划
下一篇：RedHat9 | Ansible 管理变量

【电脑】解决DiskGenius调整分区大小时报错“文件使用的簇被标记为空闲或与其它文件有交叉”
本文介绍如何解决DiskGenius调整分区大小时报错“文件使用的簇被标记为空闲或与其它文件有交叉”的错误。
阅读更多2024-11-16
UNI-APP小程序答题功能开发(左右滑动,判断,填空,问答,答题卡,纠错,做题倒计时等)
这里没啥好说的,就是根据不同的状态显示不同的内容。
阅读更多2024-11-16
ES6更新的内容中什么是proxy
Proxy 是 ES6（ECMAScript 2015）中引入的一个新的内置对象，用于定义某些操作的自定义行为（如属性查找、赋值、枚举、函数调用等）。通过创建一个对象的 Proxy，你可以控制对这个对
阅读更多2024-11-16
OTX 架构开发
（一）开发环境搭建编程环境配置根据选定的编程语言，安装相应的开发工具和编译器。如果选择 Java，安装 JDK（Java Development Kit），并配置环境变量。选择合适的集成开发环境（I
阅读更多2024-11-16
领夹麦克风哪个品牌好，手机领夹麦克风哪个牌子好，选购推荐
它最大的优势就是具有高度的灵活性，而且不受距离的过多限制，能够保证声音清晰、传输稳定，让交流沟通毫无阻碍。在此，我根据自己的选购经验以及周围朋友使用后的反馈情况，总结出了无线麦克风中那些销量靠前、口碑
阅读更多2024-11-16
SQL，力扣题目1126，查询活跃业务
(business_id, event_type) 是这个表的主键（具有唯一值的列的组合）。表中的每一行记录了某种类型的事件在某些业务中多次发生的信息。1、CTE表达式 + 窗口函数 + group
阅读更多2024-11-16
客运购票售票小程序校园巴士预约售票小程序开发方案php+uniapp
客运购票小程序开发，开发语言后端php，前端uniapp。
阅读更多2024-11-16
电子电气架构 --- 车载48V系统
电子电气架构 --- 车载48V系统
阅读更多2024-11-16
每日OJ题_牛客_DP36 abb_C++_Java
每日OJ题_牛客_DP36 abb_C++_Java（用abb中第一个出现的b来考虑，一个字符作为第一b能产生的abb字符，等于它后面相同的字符数量（意味着还能凑成多少个bb）乘以它前面与它不相同的字
阅读更多2024-11-16
51单片机基础03 矩阵按键读取与外部中断读取
介绍了独立按键读取、51单片机外部中断、矩阵按键读取等
阅读更多2024-11-16

Spark实时（四）：Strctured Streaming简单应用

Strctured Streaming简单应用

一、Output Modes输出模式

二、​​​​​​​​​​​​​​Streaming Table API

三、​​​​​​​​​​​​​​Triggers

1、​​​​​​​unspecified（默认模式）

2、​​​​​​​​​​​​​​Fixed interval micro-batches（固定间隔批次）

3、 ​​​​​​​​​​​​​​One-time micro-batch （仅一次触发）

4、​​​​​​​​​​​​​​Continuous with fixed checkpoint interval（连续处理）

相关文章

二、Streaming Table API

三、Triggers

1、unspecified（默认模式）

2、Fixed interval micro-batches（固定间隔批次）

3、 One-time micro-batch （仅一次触发）

4、Continuous with fixed checkpoint interval（连续处理）