Kafka模拟器产生数据仿真-集成StructuredStreaming做到”毫秒“级实时响应StreamData落地到mysql

🕗 发布于 2024-03-15 05:16 kafka 分布式

这是仿真过程某图：

kafka消费sink端和StructuredStreaming集成通信成功，数据接收全部接收

数据落地情况：

全部接收到并all存入mysql

下面就简单分享一下StructuredStreaming代码吧

import org.apache.spark.sql.functions.{col, from_json}
import org.apache.spark.sql.streaming.{ OutputMode, Trigger}
import org.apache.spark.sql.types.{IntegerType, StringType,  StructType}
import org.apache.spark.sql.{DataFrame, Dataset, Row, SparkSession}


    val spark: SparkSession = SparkSession.builder()
      .appName("kafkaConsumer")
      .master("local[3]")
      .getOrCreate()

    import spark.implicits._


    // 定义json字段类型格式
    val Jsonschmea: StructType = new StructType()
      .add("id", dataType = IntegerType)
      .add("name", dataType = StringType)
      .add("sorce", dataType = IntegerType)


    val message: DataFrame = spark.readStream // message为从kafka读到的原数据
      .format("kafka")
      .option("kafka.bootstrap.servers", "xxxxx:9092,xxxx:9092,xxxx:9092")
      .option("subscribe", "xxxx")
      .option("startingOffsets", "latest")
      .load()



    // 将json字符串转化为结构化数据

    val streamData: DataFrame = message.selectExpr("cast(value as String) as message") 
      .select(from_json($"message", Jsonschmea).alias("data"))
    // 将json结构化为新的df


    // 预加载mysql驱动

    // 实时写入 第二个参数预占位，want给每一批次加入唯一表示， but本次仅占位没有传参数
    def writeToMysql(batchDF: DataFrame, epochId: Long): Unit = {
      val sqlurl = "jdbc:mysql://localhost:xxxx/xxxx"
      val sqluser = "xxxx"
      val sqlpass = "xxxxx"

      Class.forName("com.mysql.cj.jdbc.Driver")  // mysql 8.0后得驱动，旧版本去掉cj

      batchDF.foreachPartition {
        partitionOfRecords =>
          val connection = DriverManager.getConnection(sqlurl, sqluser, sqlpass)

          // 关闭自动提交以支持增量写入
          connection.setAutoCommit(false)
          // 创建预编译的插入语句
          val insertsql = "insert into jsonstream(id,name,sorce) values(?,?,?)"
          val preparedStatement = connection.prepareStatement(insertsql)

          partitionOfRecords.foreach {
            row =>
//              val id = row.getAs[Int]("data.id")
//              val name = row.getAs[String]("data.name")
//              val score = row.getAs[Int]("data.sorce")

              
              val id = row.getAs[Row]("data").getAs[Int]("id")
              val name = row.getAs[Row]("data").getAs[String]("name")
              val sorce = row.getAs[Row]("data").getAs[Int]("sorce")

            // 设置参数到预处理sql函数中
              preparedStatement.setInt(1, id)
              preparedStatement.setString(2, name)
              preparedStatement.setInt(3, sorce)

              // 执行添加到批次操作
              preparedStatement.addBatch()
          }
          preparedStatement.executeBatch()
          connection.commit() // 执行批处理后手动提交事务


          preparedStatement.close()  // 手动GC
          connection.close()
      }
    }

// 数据落地到数据库
      streamData.writeStream
        .outputMode(OutputMode.Append())
        .foreachBatch(writeToMysql _)
        .trigger(Trigger.ProcessingTime("1 millisecond")) // 1 毫秒每个batch
        .start()
        .awaitTermination()

存储按照一定批次量做存储

友情提示：上述程序是经过脱敏处理的哦

----彩蛋----

如果你看到者你会知道scala在11更新之后也就是12版本如下：

batchDF.foreachPartition {
  partitionOfRecords => ... 这个位置

Dataset的foreachPartition 里面不能处理 Row的Iterator，所以需要转为rdd在做处理

所以更改后为

batchDF.rdd.foreachPartition { partitionOfRecords => ...

而且这里不能用foreach ，否则无法序列化就能存储到mysql，不能被序列化的数据是不能在网络中进行传输的，通过二进制流的形式传出，在被反序列化回来转化为对象的形式存储

ok -----

原文地址：https://blog.csdn.net/python8181/article/details/136721419

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

11.15 机器学习-集成学习方法-随机森林
机器学习中有一种大类叫**集成学习**（Ensemble Learning），集成学习的基本思想就是将多个分类器组合，从而实现一个预测效果更好的集成分类器。# 就是把多个分类器组合起来用每个分类器都
阅读更多2024-11-16
Linux之vim全选，全部复制，全部删除
（区分大小写！！！全部删除：按esc键后，先按gg（到达顶部），然后dG全部复制：按esc键后，先按gg，然后ggyG全选高亮显示：按esc键后，先按gg，然后ggvG或者ggVG单行复制：按esc键
阅读更多2024-11-16
机器学习 ---线性回归
文章主要介绍了线性回归相关内容，包括简单线性回归与多元线性回归的概念及示例，阐述了残差的定义、在理想与非理想模型中的情况及意义，还讲解了线性回归的正规方程解，涵盖其适用场景、公式推导与代码实现，提及衡
阅读更多2024-11-16
机器学习day5-随机森林和线性代数1
在坐标轴上画出对应的点（离散或者连续），如果是离散的点，需要找一条直线使得这些点尽可能多地在这条直线上，或者能够尽可能均匀地分布在这条直线的两边，达到损失值最小的目标，使其尽可能地接近能够进行准确预测
阅读更多2024-11-16
AUTOSAR COM修改PDU发送周期不生效
首先当前是其他PDU都是能正常发送的，且发送的周期都符合通信矩阵DBC中的定义。经过分析是COM模块使能了MDT的周期发送功能，且该I-PDU配置了MDT（即下图中的Minimum Delay Tim
阅读更多2024-11-16
计算机网络：运输层 —— TCP 的 “三次握手” 与 “四次挥手”
TCP是面向连接的协议，它基于运输连接来传送TCP报文段。TCP运输连接的建立和释放，是每一次面向连接的通信中必不可少的过程。TCP运输连接有以下三个阶段：通过“三报文握手”来建立TCP连接。基于已建
阅读更多2024-11-16
数据结构-5.二叉树
本篇博客给大家带来的是二叉树的知识点, 其中包括面试经常会提问的真题 ArrayList 和 LinkedList 的区别 .文章专栏:Java-数据结构若有问题评论区见如果你不知道分享给谁,那就分
阅读更多2024-11-16
NotePad++中安装XML Tools插件
作为开发人员，日常开发中大部的数据是标准的json格式，但是对于一些古老的应用，例如webservice接口，由于其响应结果是xml，那么我们拿到xml格式的数据后，常常会对其进行格式化，以便阅读。。
阅读更多2024-11-16
在 Unix 和类 Unix 操作系统中，信号是一种异步的通知机制，用于通知进程发生了一些特定的事件。
SIGINT：中断信号，通常由Ctrl+C产生。SIGTERM：终止信号，用于优雅地终止进程。SIGKILL：强制终止信号，立即终止进程。SIGHUP：挂断信号，通常由终端会话结束产生。SIGQUIT
阅读更多2024-11-16
常见查找排序算法
printf("元素 %d 在数组中的下标是 %d\n", key, mid);printf("元素 %d 在数组中的下标是 %d\n", key, i);pr
阅读更多2024-11-16

Kafka模拟器产生数据仿真-集成StructuredStreaming做到”毫秒“级实时响应StreamData落地到mysql

相关文章