大数据-230 离线数仓 - ODS层的构建 Hive处理 UDF 与 SerDe 处理与当前总结

🕗 发布于 2024-11-22 14:40 大数据 hive hadoop java sql

点一下关注吧！！！非常感谢！！持续更新！！！

Java篇开始了！

目前开始更新 MyBatis，一起深入浅出！

目前已经更新到了：

Hadoop（已更完）
HDFS（已更完）
MapReduce（已更完）
Hive（已更完）
Flume（已更完）
Sqoop（已更完）
Zookeeper（已更完）
HBase（已更完）
Redis （已更完）
Kafka（已更完）
Spark（已更完）
Flink（已更完）
ClickHouse（已更完）
Kudu（已更完）
Druid（已更完）
Kylin（已更完）
Elasticsearch（已更完）
DataX（已更完）
Tez（已更完）
数据挖掘（已更完）
Prometheus（已更完）
Grafana（已更完）
离线数仓（正在更新…）

章节内容

上节我们完成了如下的内容：

ODS层的构建 Hive处理
JSON 数据处理结构化

在这里插入图片描述

JSON 数据处理

续接上节，上节到了内建函数。

使用UDF处理

自定义UDF处理JSON串中的数组，自定义UDF函数：

输入：JSON串、数组的Key
输出：字符串数组

UDF（User Defined Function）

UDF 是用户定义的函数，用于扩展大数据处理系统的功能。通过 UDF，用户可以实现特定的业务逻辑，用于数据的转换或计算。

UDF 的特点

扩展性：Hive 等工具提供内置函数，但 UDF 允许用户实现自定义逻辑，满足复杂需求。
灵活性：UDF 可以用多种编程语言实现（Java、Python 等）。

多种类型：

普通 UDF：用于单行输入的计算，返回一个值。
UDAF（User Defined Aggregation Function）：用户定义的聚合函数，处理多行数据并返回单个结果。
UDTF（User Defined Table-generating Function）：用户定义的表生成函数，处理单行输入并输出多行数据。

导入依赖

<dependency>
  <groupId>org.apache.hive</groupId>
  <artifactId>hive-exec</artifactId>
  <version>2.3.7</version>
  <scope>provided</scope>
</dependency>

编写代码

package icu.wzk;
import com.alibaba.fastjson.JSON;
import com.alibaba.fastjson.JSONArray;
import com.alibaba.fastjson.JSONException;
import com.alibaba.fastjson.JSONObject;
import org.apache.hadoop.hive.ql.exec.UDF;
import org.apache.parquet.Strings;

import java.util.ArrayList;

public class ParseJsonArray extends UDF {

    public ArrayList<String> evaluate(String jsonStr, String arrKey) {
        if (Strings.isNullOrEmpty(jsonStr)) {
            return null;
        }
        try {
            JSONObject object = JSON.parseObject(jsonStr);
            JSONArray jsonArray = object.getJSONArray(arrKey);
            ArrayList<String> result = new ArrayList<>();
            for (Object o : jsonArray) {
                result.add(o.toString());
            }
            return result;
        } catch (JSONException e) {
            return null;
        }
    }

}

打包代码

mvn clean package;

上传：“hive-parse-json-array-1.0-SNAPSHOT-jar-with-dependencies.jar”文件到指定的目录下。

测试函数

使用自定义UDF函数：

-- 启动hive
-- 添加自定义的jar包
add jar /opt/wzk/hive-parse-json-array-1.0-SNAPSHOT-jar-with-dependencies.jar;

-- 创建临时函数，指定类需要完整的路径
CREATE temporary function wzk_json_array AS "icu.wzk.ParseJsonArray";

执行结果如下图所示：
在这里插入图片描述
运行函数进行解析：

-- 执行查询进行测试
SELECT
  username, age, sex, wzk_json_array(json, "ids") ids
FROM jsont1;

运行结果如下图所示：
在这里插入图片描述

-- 解析json串中的数组，并展开
SELECT
  username, age, sex, ids1
FROM jsont1
lateral view explode(wzk_json_array(json, "ids")) t1 AS ids1;

运行结果如下图所示：
在这里插入图片描述

-- 解析json串中的数组，并展开
SELECT
  username, age, sex, ids1, id, num
FROM jsont1
lateral view explode(wzk_json_array(json, "ids")) t1 AS ids1
lateral view json_tuple(json, 'id', 'total_number') t1 AS id, num;

运行结果如下图所示：

在这里插入图片描述

使用SerDe处理

SerDe（Serializer and Deserializer）

SerDe 是序列化与反序列化的缩写，用于定义数据的读写方式。在大数据框架中，数据通常以结构化或非结构化形式存储，SerDe 用于将这些数据转化为系统可以理解的格式，或从系统中导出成所需格式。

SerDe 的作用

反序列化：将存储中的字节流（例如文件）解析成 Hive 表中的行数据。
序列化：将 Hive 表中的行数据转换为存储格式（如 JSON、CSV、Avro 等）。
支持自定义数据格式：当 Hive 的内置格式不满足需求时，可以编写自定义 SerDe。

基本信息

序列化是对象转换为字节序列的过程，反序列化是字节序列恢复为对象的过程，对象的序列化主要有两种用途：

对象的序列化，即把对象转换为字节序列后保存到文件中
对象数据的网络传送

SerDe是Serializer和Deserilizer的简写形式，Hive使用Serde进行行对象的序列化与反序列化，最后实现把文件内容映射到Hive表中的字段数据类型。SerDe包括Serialize、Deserilize两个功能：

Serializa把Hive使用的JavaObject转换成能写入HDFS字节序列，或者其他系统能识别的流文件
Deserilize把字符串或者二进制流转换成Hive能识别的JavaObject对象

Read：HDFS Files => InputFileFormat => <Key, Value> => Deserializer => Row Object
Write: Row Object => Serializer => <Key, Value> => OutputFormat => HDFS files

Hive本身自带了几个内置的SerDe，还有其他一些第三方的SerDe可供选择。

CREATE TABLE t11(id string)
stored AS parquet;

CREATE TABLE t12(id string)
stored AS ORC;

DESC formatted t11;
DESC formatted t12;

创建数据

对于纯JSON格式的数据，可以使用JsonSerDe来处理：

vim /opt/wzk/json2.dat

写入内容如下所示：

{"id": 1,"ids": [101,102,103],"total_number": 3}
{"id": 2,"ids": [201,202,203,204],"total_number": 4}
{"id": 3,"ids": [301,302,303,304,305],"total_number": 5}
{"id": 4,"ids": [401,402,403,304],"total_number": 5}
{"id": 5,"ids": [501,502,503],"total_number": 3}

写入的数据如下所示：
在这里插入图片描述

进行测试

我们先启动Hive

hive

然后执行SQL进行测试：

-- 创建表数据
CREATE TABLE jsont2(
  id int,
  ids array<string>,
  total_number int
) ROW FORMAT SERDE 'org.apache.hive.hcatalog.data.JsonSerDe';

-- 加载数据
load data local inpath '/opt/wzk/json2.dat' into
table jsont2;

执行结果如下图所示：
在这里插入图片描述

最后小结

各种JSON格式处理的小结：

简单格式的JSON数据，使用 get_json_object、json_tuple处理
对于嵌套数据类型，可以使用UDF
纯JSON串可使用JsonSerDe处理更简单

原文地址：https://blog.csdn.net/w776341482/article/details/143931480

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：Kotlin 编译失败问题及解决方案：从守护进程到 Gradle 配置
下一篇：云原生：构建未来应用的基石

Windows电脑本地部署llamafile并接入Qwen大语言模型远程AI对话实战
Windows电脑本地部署llamafile并接入Qwen大语言模型远程AI对话实战
阅读更多2024-11-23
解决vm虚拟机中ctrl键粘滞问题（一直处于按下状态）
虚拟机中点击鼠标左键没有问题，单独按下键盘也没有问题，但是如果按下键盘的同时在按下鼠标左键就会卡住。而且100%稳定复现。发现问题原因：vm版本的问题，我的版本是17.5.0，升级成17.5.2 bu
阅读更多2024-11-23
第十章 JavaScript的应用
10.1.1 JavaScript简介1 简单性JavaScript 设计之初就考虑到了非专业程序员的使用，因此它的语法相对简单，容易上手。2 动态性JavaScript 是一种解释型语言，代码可以在
阅读更多2024-11-23
非root用户安装CUDA
4.下载完成后执行.run文件，需要添加两个参数，一个是--override，用于跳过某些检查或限制；另一个是--toolkitpath，它表示安装路径，必须是自己目录下面的路径，如果是根目录就会安装
阅读更多2024-11-23
Python操作neo4j库py2neo使用之py2neo 删除及事务相关操作（三）
【代码】## Python操作neo4j库py2neo使用之py2neo 删除及事务相关操作（三）
阅读更多2024-11-23
【通俗理解】Jensen不等式与变分分布q(z)在积分计算中的应用
Jensen不等式 #变分分布 #积分计算 #期望 #凸函数 #优化问题 #下界估计 #机器学习。
阅读更多2024-11-23
「Mac玩转仓颉内测版27」基础篇7 - 字符串类型详解
本篇将介绍 Cangjie 中的字符串类型，包括字符串的定义、字面量形式、插值表达、常用操作及应用场景，帮助开发者熟练掌握字符串的使用。
阅读更多2024-11-23
数据科学与SQL：组距分组分析 | 区间分布问题
绝对值分布分析也可以理解为组距分组分析。对于某个指标而言，一个记录对应的指标值的绝对值，肯定落在所有指标值的绝对值的最小值和最大值构成的区间内，根据一定的算法，在把这个区间划分为等距离的几个小区间，，
阅读更多2024-11-23
c++编译报C1004错误的原因及解决办法
可能是你的代码文件最后没有正确的结束符，或者是缺少了一些必要的头文件或语句。默认磁盘驱动器没有足够的空间用于临时文件，需要大约两倍于源文件的空间。编译器到达了源文件尾但未解析构造。计算结果为假的 #i
阅读更多2024-11-23
mysql 去重补全取出重复变量函数和存储过程
mysql 去重补全取出重复变量函数和存储过程
阅读更多2024-11-23

大数据-230 离线数仓 - ODS层的构建 Hive处理 UDF 与 SerDe 处理 与 当前总结