29、Spark写数据到Hudi时，同步hive表的一些坑

🕗 发布于 2025-01-14 16:40 spark hive 大数据

1.hudi的同步hive表没有comment

原以为hudi同步的hive表是根据数据写入的dataframe的schema创建的。就和spark write hive时类似，查看源码后发现不是。

1.1 hudi同步hive的模式

HMS , JDBC , HIVESQL。我这儿常用的是HMS和JDBC
在这里插入图片描述
各个同步模式对应的执行器：

1.2 schema生成

我们可以看到schema生成的代码块。先从提交的commit中获取元数据信息，没有的话则从数据文件中获取schema。两种方式获取到的schema都是没有comment信息的。
org.apache.hudi.common.table.TableSchemaResolver#getTableParquetSchema
在这里插入图片描述

  /**
   * Gets the schema for a hoodie table. Depending on the type of table, read from any file written in the latest
   * commit. We will assume that the schema has not changed within a single atomic write.
   *
   * @return Parquet schema for this table
   * @throws Exception
   */
  private MessageType getTableParquetSchemaFromDataFile() throws Exception {
    HoodieActiveTimeline activeTimeline = metaClient.getActiveTimeline();

    try {
      switch (metaClient.getTableType()) {
        case COPY_ON_WRITE:
          // If this is COW, get the last commit and read the schema from a file written in the
          // last commit
          HoodieInstant lastCommit =
              activeTimeline.getCommitsTimeline().filterCompletedInstants().lastInstant().orElseThrow(() -> new InvalidTableException(metaClient.getBasePath()));
          HoodieCommitMetadata commitMetadata = HoodieCommitMetadata
              .fromBytes(activeTimeline.getInstantDetails(lastCommit).get(), HoodieCommitMetadata.class);
          String filePath = commitMetadata.getFileIdAndFullPaths(metaClient.getBasePath()).values().stream().findAny()
              .orElseThrow(() -> new IllegalArgumentException("Could not find any data file written for commit "
                  + lastCommit + ", could not get schema for table " + metaClient.getBasePath() + ", Metadata :"
                  + commitMetadata));
          return readSchemaFromBaseFile(new Path(filePath));
        case MERGE_ON_READ:
          // If this is MOR, depending on whether the latest commit is a delta commit or
          // compaction commit
          // Get a datafile written and get the schema from that file
          Option<HoodieInstant> lastCompactionCommit =
              metaClient.getActiveTimeline().getCommitTimeline().filterCompletedInstants().lastInstant();
          LOG.info("Found the last compaction commit as " + lastCompactionCommit);

          Option<HoodieInstant> lastDeltaCommit;
          if (lastCompactionCommit.isPresent()) {
            lastDeltaCommit = metaClient.getActiveTimeline().getDeltaCommitTimeline().filterCompletedInstants()
                .findInstantsAfter(lastCompactionCommit.get().getTimestamp(), Integer.MAX_VALUE).lastInstant();
          } else {
            lastDeltaCommit =
                metaClient.getActiveTimeline().getDeltaCommitTimeline().filterCompletedInstants().lastInstant();
          }
          LOG.info("Found the last delta commit " + lastDeltaCommit);

          if (lastDeltaCommit.isPresent()) {
            HoodieInstant lastDeltaInstant = lastDeltaCommit.get();
            // read from the log file wrote
            commitMetadata = HoodieCommitMetadata.fromBytes(activeTimeline.getInstantDetails(lastDeltaInstant).get(),
                HoodieCommitMetadata.class);
            Pair<String, HoodieFileFormat> filePathWithFormat =
                commitMetadata.getFileIdAndFullPaths(metaClient.getBasePath()).values().stream()
                    .filter(s -> s.contains(HoodieLogFile.DELTA_EXTENSION)).findAny()
                    .map(f -> Pair.of(f, HoodieFileFormat.HOODIE_LOG)).orElseGet(() -> {
                      // No Log files in Delta-Commit. Check if there are any parquet files
                      return commitMetadata.getFileIdAndFullPaths(metaClient.getBasePath()).values().stream()
                          .filter(s -> s.contains((metaClient.getTableConfig().getBaseFileFormat().getFileExtension())))
                          .findAny().map(f -> Pair.of(f, HoodieFileFormat.PARQUET)).orElseThrow(() ->
                              new IllegalArgumentException("Could not find any data file written for commit "
                              + lastDeltaInstant + ", could not get schema for table " + metaClient.getBasePath()
                              + ", CommitMetadata :" + commitMetadata));
                    });
            switch (filePathWithFormat.getRight()) {
              case HOODIE_LOG:
                return readSchemaFromLogFile(lastCompactionCommit, new Path(filePathWithFormat.getLeft()));
              case PARQUET:
                return readSchemaFromBaseFile(new Path(filePathWithFormat.getLeft()));
              default:
                throw new IllegalArgumentException("Unknown file format :" + filePathWithFormat.getRight()
                    + " for file " + filePathWithFormat.getLeft());
            }
          } else {
            return readSchemaFromLastCompaction(lastCompactionCommit);
          }
        default:
          LOG.error("Unknown table type " + metaClient.getTableType());
          throw new InvalidTableException(metaClient.getBasePath());
      }
    } catch (IOException e) {
      throw new HoodieException("Failed to read data schema", e);
    }
  }

1.3建表DDL

获取到schema后，我们再看建表行为。
org.apache.hudi.hive.ddl.DDLExecutor#createTable 定义了这个接口建表方法。有两个实现类，一个是
org.apache.hudi.hive.ddl.HMSDDLExecutor。另一个是 org.apache.hudi.hive.ddl.QueryBasedDDLExecutor
在这里插入图片描述
首先，看org.apache.hudi.hive.ddl.HMSDDLExecutor#createTable方法：
ddl操作中使用的字段信息在HiveSchemaUtil.convertMapSchemaToHiveFieldSchema生成，可以直接在这个方法里看到字段的comment信息是直接写死为空字符串的。

再看，org.apache.hudi.hive.ddl.QueryBasedDDLExecutor#createTable方法。
方法里是通过HiveSchemaUtil.generateCreateDDL方法直接生成的ddl建表语句的。这个方法里generateSchemaString方法来生成字段信息的。在这个方法里，也是没有涉及comment信息的。
在这里插入图片描述

1.4结论

同步hive表是在数据写入hudi目录后，根据目录里的schema来创建的hive表，所以创建的hive表没有带着dataframe的comment信息。需要手动执行修改字段comment。

2.追加comment

2.1.使用spark.sql的方式修改comment

用spark.sql(）的方式执行修改comment的sql语句，会调用hudi里的AlterHoodieTableChangeColumnCommand类。这个里面会比较schema，刷新sparksession里的catalog信息，会让任务hang住。（为什么hang住没去排查）大概操作就是写一个使用新的schema的空数据集到hudi来实现schema更新。
org.apache.spark.sql.hudi.command.AlterHoodieTableChangeColumnCommand。
在这里插入图片描述

2.2使用hive-sql的方式修改comment

用hive-jdbc的方式执行修改sql语句。这个方式不会更新hive表里的 TBLPROPERTIES 的 'spark.sql.sources.schema.part.0’信息。
使用dataframe的schame.tojson ，去修改 ‘spark.sql.sources.schema.part.0’ 信息

  /**
   * 将 dataframe 中的comment加到 hudi的hive表中
   *
   * @param df      dataframe
   * @param dbTable hive表
   * @param spark   spark session
   */
  def addCommentForSyncHive(df: DataFrame, dbTable: String, spark: SparkSession, writeOptions: mutable.Map[String, String]): Unit = {
    val comment: Map[String, String] = df.schema.map(sf => (sf.name, sf.getComment().getOrElse(""))).toMap
    info(s"数据集的字段名->备注为：\n${comment.mkString("\n")}")


    val jdbcUrlOption = writeOptions.get(DataSourceWriteOptions.HIVE_URL.key())
    val jdbcUserOption = writeOptions.get(DataSourceWriteOptions.HIVE_USER.key())
    val jdbcPassOption = writeOptions.get(DataSourceWriteOptions.HIVE_PASS.key())
    assert(jdbcUrlOption.isDefined, s"${DataSourceWriteOptions.HIVE_URL.key()} 必须被指定")

    val connection = DbUtil.createHiveConnection(
      jdbcUrlOption.get, jdbcUserOption.getOrElse(""), jdbcPassOption.getOrElse("")
    )
    val stmt = connection.createStatement()
    //需要手动更新hive表中的spark.sql.sources.schema.part.0信息
    stmt.execute(s"ALTER TABLE $dbTable SET TBLPROPERTIES ('spark.sql.sources.schema.part.0' = '${df.schema.json}')")

    // 获取表字段和类型
    val tableSchema = spark.sql(s"DESCRIBE $dbTable")
      .select("col_name", "data_type")
      .collect()
      .map(row => (row.getString(0), row.getString(1)))

    tableSchema.foreach { case (column, dataType) =>
      if (comment.contains(column) && !Seq("ym", "ymd").contains(column)) {
        val newComment = comment.getOrElse(column, "")
        val sql = s"""ALTER TABLE $dbTable CHANGE COLUMN $column $column $dataType COMMENT '$newComment'"""
        info(s"添加备注执行sql：$sql")
        try {
          stmt.execute(sql)
        } catch {
          case e:Throwable =>
            warn("添加备注sql执行失败")
        }
      }
    }
    stmt.close()
    connection.close()
  }

修改’spark.sql.sources.schema.part.0’时，因为schema带有备注，会很长，导致超过hive表元数据mysql表字段的长度限制。去mysql中修改这个长度限制（table_params表PARAM_VALUE字段）。
在这里插入图片描述

原文地址：https://blog.csdn.net/weixin_42960808/article/details/145110400

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：搭建 RUST 交叉编译环境
下一篇：day06_Spark SQL

【I/O编程】UNIX文件基础
I - Input 输入O - Output 输出这里的输入和输出都是站在应用（运行中的程序）的角度。外部特指文件。这里的文件是泛指，并不是只表示存在存盘中的常规文件。还有设备、套接字、管道、链接等等
阅读更多2025-01-16
RuoYi-Vue-Plus 加入 GitCode：驱动多租户后台管理创新发展
基于扎实的技术架构，对原 RuoYi-Vue 功能进行全面重写与升级。该项目整合了 Sa-Token、Mybatis-Plus、Flowable、SpringDoc、Hutool、OSS 等先进技术，
阅读更多2025-01-16
APP推荐：全新TV端来了，8K原画电视版
B站都不陌生吧，一个能追番、学习、娱乐的多元平台，之前也分享过几款第三方TV端，其中的BV最近更新了全新版本。这次更新了很多内容，新增PGC剧集、UGC分区板块，同时新版的搜索功能也挺好用的。如果你是
阅读更多2025-01-16
Web前端------HTML多媒体标签之图片标签
【代码】Web前端------HTML多媒体标签之图片标签。
阅读更多2025-01-16
STM32-笔记40-BKP（备份寄存器）
备份寄存器是42个16位的寄存器，可用来存储84个字节的用户应用程序数据。他们处在备份域里，当VDD电源被切断，他们仍然由VBAT维持供电。当系统在待机模式下被唤醒，或系统复位或电源复位时，他们也不会
阅读更多2025-01-16
《零基础Go语言算法实战》【题目 4-3】请用 Go 语言编写一个验证栈序列是否为空的算法
找出栈顶元素，找到了就出栈 pop，直到遍历完 pop 数组，最终如果遍历完了 pop 数组，则。给定两个具有不同值的 push 和 pop 数组序列，当且仅当这可能是对最初为空的栈的一系。这是考查栈
阅读更多2025-01-16
45. 跳跃游戏2
给定一个长度为 n 的 0 索引整数数组 nums。初始位置为 nums[0]。每个元素 nums[i] 表示从索引 i 向前跳转的最大长度。换句话说，如果你在 nums[i] 处，你可以跳转到任意
阅读更多2025-01-16
LeetCode2799 统计完全子数组的数目
这个问题展示了如何从一个简单的暴力算法逐步优化到一个更高效的算法。在处理数组问题时，滑动窗口是一个非常强大的工具，它可以帮助我们避免不必要的重复计算，提高算法的效率。同时，对于内存分配和数组范围的考虑
阅读更多2025-01-16
Vue3+TypeScript完美实现AntVX6官方人工智能建模 DAG 图
简述：本文通过理解官方文档进行编写，实现官方的示例效果。实现结果如下：代码解析：代码解释为onMounted初始化页面顺序进行讲解。
阅读更多2025-01-16
电脑之一键备份系统(One Click Backup System for Computer)
相信使用电脑的的人都遇到过，电脑系统崩溃，开机蓝屏等原因，这个时候你急着用电脑办公，电脑却给你罢工是多么气人了，其实可以给电脑做一个系统备份。本章详细介绍如何意一键备份电脑系统。
阅读更多2025-01-16