【大数据技术基础 | 实验十】Hive实验：部署Hive

🕗 发布于 2024-11-13 10:35 大数据 hive hadoop 数据仓库分布式

在这里插入图片描述

文章目录

一、实验目的

理解Hive存在的原因；
理解Hive的工作原理；
理解Hive的体系架构；
并学会如何进行内嵌模式部署；
启动Hive，然后将元数据存储在HDFS上。

二、实验要求

完成Hive的内嵌模式部署；
能够将Hive数据存储在HDFS上；
待Hive环境搭建好后，能够启动并执行一般命令。

三、实验原理

Hive是Hadoop 大数据生态圈中的数据仓库，其提供以表格的方式来组织与管理HDFS上的数据、以类SQL的方式来操作表格里的数据，Hive的设计目的是能够以类SQL的方式查询存放在HDFS上的大规模数据集，不必开发专门的MapReduce应用。

Hive本质上相当于一个MapReduce和HDFS的翻译终端，用户提交Hive脚本后，Hive运行时环境会将这些脚本翻译成MapReduce和HDFS操作并向集群提交这些操作。

当用户向Hive提交其编写的HiveQL后，首先，Hive运行时环境会将这些脚本翻译成MapReduce和HDFS操作，紧接着，Hive运行时环境使用Hadoop命令行接口向Hadoop集群提交这些MapReduce和HDFS操作，最后，Hadoop集群逐步执行这些MapReduce和HDFS操作，整个过程可概括如下：
（1）用户编写HiveQL并向Hive运行时环境提交该HiveQL。
（2）Hive运行时环境将该HiveQL翻译成MapReduce和HDFS操作。
（3）Hive运行时环境调用Hadoop命令行接口或程序接口，向Hadoop集群提交翻译后的HiveQL。
（4）Hadoop集群执行HiveQL翻译后的MapReduce-APP或HDFS-APP。

由上述执行过程可知，Hive的核心是其运行时环境，该环境能够将类SQL语句编译成MapReduce。

Hive构建在基于静态批处理的Hadoop之上，Hadoop通常都有较高的延迟并且在作业提交和调度的时候需要大量的开销。因此，Hive并不能够在大规模数据集上实现低延迟快速的查询，例如，Hive在几百MB的数据集上执行查询一般有分钟级的时间延迟。

因此，Hive并不适合那些需要低延迟的应用，例如，联机事务处理（OLTP）。Hive查询操作过程严格遵守Hadoop MapReduce的作业执行模型，Hive将用户的HiveQL语句通过解释器转换为MapReduce作业提交到Hadoop集群上，Hadoop监控作业执行过程，然后返回作业执行结果给用户。Hive并非为联机事务处理而设计，Hive 并不提供实时的查询和基于行级的数据更新操作。Hive的最佳使用场合是大数据集的批处理作业，例如，网络日志分析。

Hive架构与基本组成如图所示：

在这里插入图片描述

四、实验环境

云创大数据实验平台：
Java 版本：jdk1.7.0_79
Hadoop 版本：hadoop-2.7.1
Hive 版本：hive-1.2.1

五、实验内容和步骤

相对于其他组件，Hive部署要复杂得多，按metastore存储位置的不同，其部署模式分为内嵌模式、本地模式和完全远程模式三种。当使用完全模式时，可以提供很多用户同时访问并操作Hive，并且此模式还提供各类接口（BeeLine，CLI，甚至是Pig），这里我们以内嵌模式为例。
由于使用内嵌模式时，其Hive会使用内置的Derby数据库来存储数据库，此时无须考虑数据库部署连接问题，整个部署过程可概括如下。

（一）安装部署

在master机上操作：首先确定存在Hive

ls /usr/cstor/hive/

在这里插入图片描述

（二）配置HDFS

先为Hive配置Hadoop安装路径。

待解压完成后，进入Hive的配置文件夹conf目录下，接着将Hive的环境变量模板文件复制成环境变量文件。

cd /usr/cstor/hive/conf
cp hive-env.sh.template hive-env.sh
vim hive-env.sh

这里使用cp命令而不是mv命令，是因为我们可以备份一份之前的文件，我们只是复制一份修改，而不是替换。

在配置文件中加入以下语句：

HADOOP_HOME=/usr/cstor/hadoop

在这里插入图片描述

然后在HDFS里新建Hive的存储目录，进入hadoop的bin目录内：

cd /usr/cstor/hadoop/

在HDFS中新建/tmp和/usr/hive/warehouse两个文件目录，并对同组用户增加写权限。

bin/hadoop fs -mkdir /tmp
bin/hadoop fs -mkdir -p /usr/hive/warehouse
bin/hadoop fs -chmod g+w /tmp
bin/hadoop fs -chmod g+w /usr/hive/warehouse

在这里插入图片描述

（三）启动Hive

在内嵌模式下，启动Hive指的是启动Hive运行时环境，用户可使用下述命令进入Hive运行时环境。

启动Hive命令行：

cd /usr/cstor/hive/
bin/hive

在这里插入图片描述

六、实验结果

（一）启动结果

使用bin/hive命令进入Hive环境验证Hive是否启动成功。

cd /usr/cstor/hive/
bin/hive

在这里插入图片描述

（二）Hive基本命令

进入Hive环境后，使用show tables，show function后如下图所示则表示配置成功。

显示表：

show tables;

在这里插入图片描述

因为目前我们没有创建表所以返回了一个OK。

显示Hive内置函数：

show functions;

在这里插入图片描述

退出Hive环境：

exit;

七、实验心得

通过本次Hive部署实验，我深刻理解了Hive在Hadoop大数据生态圈中的重要地位和作用。Hive作为一个数据仓库，不仅提供了以表格方式组织和管理HDFS上数据的便利，更以类SQL的方式简化了对大规模数据集的操作，极大地降低了开发成本。

在实验过程中，我学习了Hive的内嵌模式部署方法，掌握了如何将Hive数据存储在HDFS上，并成功启动了Hive环境。通过实际操作，我深刻体会到了Hive环境搭建的复杂性和细致性，每一个步骤都需要谨慎操作，稍有疏忽就可能导致部署失败。

同时，我也认识到Hive并非为联机事务处理而设计，其查询操作过程严格遵守Hadoop MapReduce的作业执行模型，因此在大规模数据集上实现低延迟快速查询方面存在一定的局限性。这使我更加明确了Hive的最佳使用场合——大数据集的批处理作业。此外，我还学会了使用Hive的基本命令，如查看表格和函数等，这些命令为我在后续的实验和学习中提供了有力的支持。

总之，本次Hive部署实验不仅让我掌握了Hive的部署和使用方法，更让我对Hive的工作原理和体系架构有了更深入的理解。我相信，在未来的学习和工作中，我将能够更好地运用Hive来处理和分析大规模数据集。

附：以上文中的数据文件及相关资源下载地址：
链接：https://pan.quark.cn/s/b0f6f0d06704
提取码：PNp2

原文地址：https://blog.csdn.net/Morse_Chen/article/details/143380972

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：ubuntu20.04_从零LOD-3DGS的复现
下一篇：【学术会议介绍，SPIE 出版】第四届计算机图形学、人工智能与数据处理国际学术会议 (ICCAID 2024，12月13-15日)

设计模式之装饰器模式(SSO单点登录功能扩展，增加拦截用户访问方法范围场景)
不改变原有类，可能有的小伙伴会想到继承、AOP切面，当然这些方式都可以实现，但是使用装饰器模式会是另外一种思路更为灵活，可以避免继承导致的子类过多，也可以避免AOP带来的复杂性。就像夏天热你穿短裤，冬
阅读更多2024-11-15
MySQL45讲第二十三讲是怎么保证数据不丢的？
在 MySQL 的世界里，数据的可靠性是至关重要的。今天，我们将深入探讨 MySQL 是如何保证数据不丢的，这涉及到 binlog 和 redo log 的写入机制，以及一些关键参数的设置。
阅读更多2024-11-15
【Electron】Electron Forge如何支持Element plus？
在 Electron Forge 项目中集成 Element Plus 是一个相对直接的过程。Element Plus 是一个基于 Vue 3 的 UI 组件库，因此你需要确保你的 Electron
阅读更多2024-11-15
jupyter可视化pandas dataframe
在Jupyter中显示HTML表格。
阅读更多2024-11-15
如何使用Jupyter
Jupyter Notebook 是一个开源的 Web 应用程序，允许你创建和共享包含实时代码、方程、可视化和解释性文本的文档。Jupyter Notebook 还支持许多高级功能，如魔法命令、扩展、
阅读更多2024-11-15
利用飞书多维表格自动发布版本
飞书的多维表格有自动化的能力，我们每周只需要设定好版本发布的时间，可以让其自动触发版本发布，并在群里通知所有人。那么假定我们每隔10分钟获取一次，除非在发版前10分钟内修改发版计划，否则都能感知到版本
阅读更多2024-11-15
SQL Server Service Broker完整示例
SQL server Service Broker实战
阅读更多2024-11-15
QT鼠标事件
这篇文章介绍如何使用事件和获取事件的信号。
阅读更多2024-11-15
基于Python+Vue开发的旅游景区管理系统
该项目是基于Python+Vue开发的旅游景区管理系统（前后端分离），这是一项为大学生课程设计作业而开发的项目。该系统旨在帮助大学生学习并掌握Python编程技能，同时锻炼他们的项目设计与开发能力。通
阅读更多2024-11-15
2023年12月中国电子学会青少年软件编程（Python）等级考试试卷（三级）答案 + 解析
2023年12月中国电子学会青少年软件编程（Python）等级考试试卷（三级）答案 + 解析
阅读更多2024-11-15

【大数据技术基础 | 实验十】Hive实验：部署Hive

文章目录

一、实验目的

二、实验要求

三、实验原理

四、实验环境

五、实验内容和步骤

（一）安装部署

（二）配置HDFS

（三）启动Hive

六、实验结果

（一）启动结果

（二）Hive基本命令

七、实验心得

相关文章