Hive理论讲解

🕗 发布于 2024-07-17 10:13 hive hadoop 数据仓库

Hive介绍

1、Hive本质

Hive本质是【数仓设计方案】，hive本身并不存储数据【数据包含：元数据 + (表)数据】。

2、hql和sql对比

sql = 结构化查询语言【structured query language】
hql = hive/hadoop类sql查询语言【hive/hadoop query language like sql】
说明：对于hql而言，表面是sql。实际上，数据存储于HDFS，执行引擎是Spark，MapReduce，Pig，Tez等。

3、数据存储

元数据存储于RDB[关系型数据库]中。其默认存储于DERBY中，但一般在生产环境下存储于mysql中。
(表)数据存储于HDFS中。

补充：元数据的讲解

元数据（Metadata）是指描述数据的数据，它提供关于数据集、资源、文件、系统或者业务流程的额外信息，其中就包含库名，表名，字段，数据类型等。
在Hive中，元数据则是由HiveMetaStore来统一管理，进行存储、管理、保护和查询等操作。

4、计算引擎

一：MapReduce

Map：清洗，列变形，列裁剪
Map+Reduce：聚合

二：Spark ✔

1、Job中间输出结果可以保存在内存，不再需要读写HDFS
2、速度快，比MapReduce平均快10倍以上

5、Hive层次结构【元数据映射】

逻辑结构	物理结构
库	文件夹(与库同名.db)
表	文件夹(与表同名)
分区	文件夹 (格式：分区字段名=分区字段值)
数据	文件
分桶	小文件（目的：抽样和数据修改）

6、Hive执行过程

1.UI客户端发出请求 executeQuery[执行查询语句]
2.Driver[驱动] 通过 Compiler 进行编译
3.Compiler 需要向 MetaStore 请求元数据。
编译过程：
Compiler[驱动] 得到 元数据 后
先 生成 逻辑执行计划 
再 通过优化形成 物理执行计划
4.将 物理执行计划 通过 Driver[驱动] 交给 ExecutionEngine[执行引擎]
5.ExecutionEngine[执行引擎] 将 物理执行计划 交给 hadoop的MapReduce进行job任务。
6.最终结果落盘到datanode上。
7.UI客户端 向 Driver[驱动] 发起请求 fetchResults
8.Driver 通过 ExecutionEngine[执行引擎] 从 datanode 上将数据拉过来，交给 UI客户端。

原文地址：https://blog.csdn.net/qq_73339471/article/details/140475018

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：Spring MVC-11
下一篇：安全防御：防火墙基本模块

OpenLayers：构建现代Web地图应用
OpenLayers 是一个用于绘制地图的开源 JavaScript 库。它提供了丰富的 API 和工具集，允许开发者创建高性能的地图应用，并且支持多种图层源，如矢量数据、瓦片服务等。OpenLaye
阅读更多2024-10-20
Web 应用防火墙(WAF)
在现代Web应用开发中，作为反向代理的架构被广泛采用。这种架构具备高性能、易扩展的特点，但也带来了Web层的安全挑战。Web应用防火墙（WAF）作为专门防御Web应用层攻击的安全措施，能够为此架构增加
阅读更多2024-10-20
二叉平衡树（AVL树）Java语言实现
将A的左孩子B向右上旋转代替A成为根结点，将A结点向右下旋转成为B的右子树的根结点，而B的原右子树则作为A结点的左子树。将A的右孩子B向左上旋转代替A成为根结点，将A结点向左下旋转成为B的左子树的根结
阅读更多2024-10-20
深入了解路由
路由是网络中将数据包从源地址传送到目标地址的过程。它涉及网络设备（如路由器）根据某种算法和策略，决定数据包下一步应该去往的路径。路由的核心功能是通过多条路径之间进行选择，确保数据可以高效、可靠地从发送
阅读更多2024-10-20
OpenWRT 和 Padavan 路由器配置网络打印机实现远程打印
之前有给大家介绍过 Armbian 安装 CUPS 作为打印服务器，像是 N1 盒子、玩客云，甚至是随身 WiFi 都可以通过 CUPS 来进行打印。但是有些朋友不想专门为打印机添置一个设备，如果你恰
阅读更多2024-10-20
cadvisor
cAdvisor（容器顾问）可帮助容器用户了解正在运行的容器的资源使用情况和性能特征。它是一个运行守护进程，用于收集、汇总、处理和导出有关正在运行的容器的信息。具体来说，它为每个容器保存资源隔离参数、
阅读更多2024-10-20
SpringBoot车辆管理系统：设计与实施细节
一个成功的网站应明确建设网站的目的，确定网站的功能，确定网站规模、投入费用，进行必要的市场分析等。6、网络上的客户端和服务器可以用来编程任何独立的编程环境，也有中国，GB2312，BIG5，日文写作，
阅读更多2024-10-20
文字跑马灯：实现文字自动滚动策略的原理分析
在本文中，我们详细分析了如何实现文字跑马灯效果，通过判断文字内容是否超出容器，进而实现自动滚动的功能，为网站添加了一个引人注目的动画效果。下面我来进行总结一下，实现文字滚动效果有以下几个要点：判断文字
阅读更多2024-10-20
2062：【例1.3】电影票
已知一位小朋友的电影票价是10元，计算x位小朋友的总票价是多少？人数和电影票总价，中间用一个空格隔开。
阅读更多2024-10-20
用自己的数据集复现YOLOv5
2.改好模型配置文件和数据加载配置文件，分别在E:\project\MODEL\YOLO\yolov5-master\modelsyolov5s.yaml和E:\project\MODEL\YOLO\
阅读更多2024-10-20