【Spark 实战】基于spark3.4.2+iceberg1.6.1搭建本地调试环境

🕗 发布于 2024-10-05 05:38 spark 大数据 分布式

基于spark3.4.2+iceberg1.6.1搭建本地调试环境

文章目录

基于spark3.4.2+iceberg1.6.1搭建本地调试环境

环境准备

IntelliJ IDEA 2024.1.2 (Ultimate Edition)
JDK 1.8
Spark 3.4.2
Iceberg 1.6.1

在这里插入图片描述

使用maven构建sparksql

pom文件

<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0</modelVersion>

    <groupId>com.donny.demo</groupId>
    <artifactId>iceberg-demo</artifactId>
    <version>1.0-SNAPSHOT</version>
    <packaging>jar</packaging>

    <name>iceberg-demo</name>
    <url>http://maven.apache.org</url>

    <properties>
        <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>
        <spark.version>3.4.2</spark.version>
        <iceberg.version>1.6.1</iceberg.version>
        <parquet.version>1.13.1</parquet.version>
        <avro.version>1.11.3</avro.version>
        <parquet.hadoop.bundle.version>1.8.1</parquet.hadoop.bundle.version>
    </properties>

    <dependencies>

        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-core_2.12</artifactId>
            <version>${spark.version}</version>
            <exclusions>
                <exclusion>
                    <groupId>org.apache.avro</groupId>
                    <artifactId>avro</artifactId>
                </exclusion>
            </exclusions>
        </dependency>
        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-sql_2.12</artifactId>
            <version>${spark.version}</version>
            <exclusions>
                <exclusion>
                    <groupId>org.apache.parquet</groupId>
                    <artifactId>parquet-column</artifactId>
                </exclusion>
                <exclusion>
                    <groupId>org.apache.parquet</groupId>
                    <artifactId>parquet-hadoop-bundle</artifactId>
                </exclusion>
                <exclusion>
                    <groupId>org.apache.parquet</groupId>
                    <artifactId>parquet-hadoop</artifactId>
                </exclusion>
            </exclusions>
        </dependency>

        <dependency>
            <groupId>org.apache.iceberg</groupId>
            <artifactId>iceberg-core</artifactId>
            <version>${iceberg.version}</version>
        </dependency>
        <dependency>
            <groupId>org.apache.iceberg</groupId>
            <artifactId>iceberg-spark-3.4_2.12</artifactId>
            <version>${iceberg.version}</version>
        </dependency>
        <dependency>
            <groupId>org.apache.iceberg</groupId>
            <artifactId>iceberg-spark-extensions-3.4_2.12</artifactId>
            <version>${iceberg.version}</version>
            <exclusions>
                <exclusion>
                    <groupId>org.antlr</groupId>
                    <artifactId>antlr4</artifactId>
                </exclusion>
                <exclusion>
                    <groupId>org.antlr</groupId>
                    <artifactId>antlr4-runtime</artifactId>
                </exclusion>
            </exclusions>
        </dependency>
        <dependency>
            <groupId>org.apache.parquet</groupId>
            <artifactId>parquet-column</artifactId>
            <version>${parquet.version}</version>
        </dependency>
        <dependency>
            <groupId>org.apache.parquet</groupId>
            <artifactId>parquet-hadoop</artifactId>
            <version>${parquet.version}</version>
        </dependency>
        <dependency>
            <groupId>org.apache.parquet</groupId>
            <artifactId>parquet-hadoop-bundle</artifactId>
            <version>${parquet.hadoop.bundle.version}</version>
        </dependency>
        <dependency>
            <groupId>org.apache.avro</groupId>
            <artifactId>avro</artifactId>
            <version>${avro.version}</version>
        </dependency>

        <dependency>
            <groupId>junit</groupId>
            <artifactId>junit</artifactId>
            <version>3.8.1</version>
            <scope>test</scope>
        </dependency>
    </dependencies>
</project>

在 idea 中直接使用iceberg 生成好的 runtime jar，无法attach 不上 iceberg 的源码，为了解决这个问题把maven 依赖改成上面的pom文件上的iceberg依赖。

<dependency>
  <groupId>org.apache.iceberg</groupId>
  <artifactId>iceberg-spark-runtime-3.4_2.12</artifactId>
  <version>1.6.1</version>
</dependency>

编辑SparkSQL简单任务

指定了 catalog 类型为 hadoop。可以方便简单的本地调试。
创建非分区的iceberg原生表
插入数据
查询数据（展示数据）

package com.donny.demo;

import org.apache.iceberg.expressions.Expressions;
import org.apache.iceberg.spark.Spark3Util;
import org.apache.iceberg.spark.actions.SparkActions;
import org.apache.spark.api.java.function.FilterFunction;
import org.apache.spark.sql.AnalysisException;
import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Row;
import org.apache.spark.sql.SparkSession;
import org.apache.spark.sql.catalog.Table;

import java.util.Objects;

/**
 * @author 1792998761@qq.com
 * @version 1.0
 * @since 2024年09月26日
 */
public class IcebergSparkDemo {
    public static void main(String[] args) throws AnalysisException {

        SparkSession spark = SparkSession
                .builder()
                .master("local")
                .appName("Iceberg spark example")
                .config("spark.sql.extensions", "org.apache.iceberg.spark.extensions.IcebergSparkSessionExtensions")
                .config("spark.sql.catalog.local", "org.apache.iceberg.spark.SparkCatalog")
                .config("spark.sql.catalog.local.type", "hadoop") //指定catalog 类型
                .config("spark.sql.catalog.local.warehouse", "iceberg_warehouse")
                .getOrCreate();

        spark.sql("create database iceberg_db");
        spark.sql("CREATE TABLE local.iceberg_db.table (id bigint, data string) USING iceberg ");
        spark.sql("INSERT INTO local.iceberg_db.table VALUES (1, 'a'), (2, 'b'), (3, 'c')");
        Dataset<Row> result = spark.sql("select * from local.iceberg_db.table order by data");
        result.show();

        spark.close();
    }
}

附录A iceberg术语

Schema – 表中的字段名称和类型
Partition spec – 定义如何从数据字段导出分区值。
Partition tuple – 分区元组是存储在每个数据文件中的分区数据的元组或结构体。
Snapshot – 表在某个时间点的状态，包括所有数据文件的集合。
Snapshot log – 快照日志是记录表当前快照随时间变化情况的元数据日志。该日志是一个时间戳和ID对的列表:当前快照发生变化的时间和当前快照发生变化的ID。
Manifest list – 列出清单文件的文件；每个快照一个。
Manifest – 列出数据或删除文件的文件；快照的子集。
Data file – 包含表行的文件。
Delete file – 对表格中按位置或数据值删除的行进行编码的文件。

参考

Iceberg 源码阅读(一) 搭建本地调试环境

原文地址：https://blog.csdn.net/weixin_43820556/article/details/142631269

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：20241004给荣品RD-RK3588-AHD开发板刷Rockchip原厂的Android12【HDMI0显示】
下一篇：Android Framework（八）WMS-窗口动效概述

ssm基于JAVA的酒店管理系统的设计与实现
需要定制毕设请私聊，海量题目可选，你选题目我出功能
阅读更多2024-10-06
【算法】双指针
常见的双指针有两种形式，⼀种是对撞指针，⼀种是快慢指针。
阅读更多2024-10-06
C语言动态内存管理(26)
如果未来要想学好数据结构，那么你对指针、结构体还有本篇的动态内存的理解掌握能力是要很高的所以跟我一起开始本篇的学习吧！在C99中，结构体最后一个成员为未知大小的数组，这个被称为柔性数组的成员，帮助用户
阅读更多2024-10-06
人形机器人相关零件解释
螺旋执行器就是这样的原理，它可以把旋转的运动变成直线的上下或前后运动。比如，你可以用它来控制机器人的手臂上下移动。多维力传感器就像是机器人的“触觉”，它可以感受到不同方向的力量。比如，当机器人用手去捡
阅读更多2024-10-06
【智能算法应用】侏儒猫鼬优化算法求解二维路径规划问题
在复杂环境下的移动机器人路径规划问题中，最优路径的求解具有重要的应用价值。本文基于一种新型智能优化算法——侏儒猫鼬优化算法（DMOA），提出了一种二维路径规划的有效求解方法。该算法通过模拟侏儒猫鼬的觅
阅读更多2024-10-06
5G NR BWP 简介
5G NR 系统带宽比4G LTE 大了很多，4G LTE 最大支持带宽为20MHz，而5G NR 的FR1 最大支持带宽为100MH在， FR2 最大支持带宽为 400MH在。带宽越大，意味了终端
阅读更多2024-10-06
（Linux驱动学习 - 7）.阻塞IO和非阻塞IO
当应用程序对设备驱动进行操作的时候，如果不能获取到设备资源，那么就会将应用程序对应的，直到设备资源可以获取为止。在应用程序中，用户调用 open 函数打开设备文件的。
阅读更多2024-10-06
通过 Groovy 实现业务逻辑的动态变更
Groovy语言作为一种基于JVM的动态语言，它可以编译为与Java相同的字节码，然后将字节码文件交给JVM去执行，并且可以与Java类无缝地互操作。Groovy可以透明地与Java库和代码交互，可以
阅读更多2024-10-06
算法竞赛（Python）-万变中的不变“随机算法”
算法竞赛（Python）-万变中的不变“随机算法”
阅读更多2024-10-06
【2024】前端学习笔记14-JavaScript常用数据类型-变量常量
本文记录了JavaScript常用的数据类型和变量常量的使用
阅读更多2024-10-06