Spark SQL大数据分析快速上手-Hive安装

🕗 发布于 2024-11-27 06:31 hive hadoop 数据仓库

由于Spark SQL的基础语法及常见操作是通过Spark SQL CLI命令行进行的，该工具可以用来在本地模式下运行Hive的元数据服务，并且通过命令行执行针对Hive的SQL查询。因此，首先需要安装Hive。

由于Hive是运行在Hadoop下的数据仓库，因此必须在已经安装好Hadoop的环境下运行Hive，并且要正确配置HADOOP_HOME环境变量。

Hadoop完全分布式环境搭建步骤_hadoop 开发环境搭建及hdfs初体验-CSDN博客

1. 下载Hive

Hive下载地址如下：

https://archive.apache.org/dist/hive/

由于Spark 3.3.1可以使用的Hive版本包括0.12.0~2.3.9，因此这里按作者习惯选用了Hive 1.2.2版本，具体下载地址如下：

https://archive.apache.org/dist/hive/hive1.2.2/apache-hive-1.2.2-bin.tar.gz

2. 上传并解压Hive

Hive安装包下载下来后，文件上传Linux当前用户目录下，并解压Hive安装文件：

$ tar -zxvf ~/apache-hive-1.2.2-bin.tar.gz -C .

目录名称太长了，修改一下名称：

$ mv apache-hive-1.2.2-bin/ hive-1.2

配置Hive的环境变量是可选的，是为了方便执行Hive脚本：

export HIVE_HOME=/app/hive-1.2

export PATH=$PATH:$HIVE_HOME/bin

3. 启动Hadoop，登录Hive命令行

首先启动Hadoop。

然后使用hive脚本，登录Hive命令行界面。此时Hive要访问Hadoop的core-site.xml文件，并访问fs.defaultFS所指的服务器。

直接输入hive命令就可以登录Hive的命令行：

[hadoop@server201 ~]$ hive

hive>

4. 一些基本的命令

类似于MySQL的SQL命令，都可以在Hive下运行。

（1）查看所有数据库：

hive> show databases;
OK
default
Time taken: 0.025 seconds, Fetched: 1 row(s)

（2）查看默认数据库下的所有表：

hive> show tables;
OK
Time taken: 0.035 seconds

（3）创建一张表，并显示这张表的结构：

hive> create table stud(id int,name varchar(30));
OK
Time taken: 0.175 seconds
hive> desc stud;
OK
id                  int
name                varchar(30)
Time taken: 0.193 seconds, Fetched: 2 row(s)

（4）显示这张表在Hive中的结构：

hive> show create table stud;
OK
CREATE TABLE `stud`(
  `id` int, 
  `name` varchar(30))
ROW FORMAT SERDE 
  'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe'  
STORED AS INPUTFORMAT 
  'org.apache.hadoop.mapred.TextInputFormat'  数据存储类型
OUTPUTFORMAT 
  'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat ' 输出类型
LOCATION
  'hdfs://server201:8020/user/hive/warehouse/stud' 保存的位置
TBLPROPERTIES (  表的其他属性信息
  'transient_lastDdlTime'='1530518761')
Time taken: 0.128 seconds, Fetched: 13 row(s)

（5）向表中写入一行记录。

由于Hive会将操作转换成MapReduce程序，因此INSERT语句会被转换成MapReduce程序。这个效率比较低，尽量不要使用INSERT语句写入数据，而是采用Hive分析现有的数据。例如：

hive> insert into stud values(1,’Jack’);

运行结果中有如下内容：

Stage-1 map =0%,reduce =0%

Stage-1 map =100%,  reduce =0%,Cumulative CPU 2.4 sec

可见，一个简单的INSERT语句确定执行了MapReduce程序，所以效率不会太高。

（6）不支持UPDATE和DELETE：

hive> update stud set name='Alex' where id=1;
FAILED: SemanticException [Error 10294]: Attempt to do update or delete using transaction manager that does not support these operations.
hive> delete from stud where id=1;
FAILED: SemanticException [Error 10294]: Attempt to do update or delete using transaction manager that does not support these operations.

由以上运行结果可见，Hive分析的数据是存储在HDFS上的，HDFS不支持随机写，只支持追加写，所以在Hive中不能使用UPDATE和DELETE语句，只能使用SELECT和INSERT语句。

原文地址：https://blog.csdn.net/brucexia/article/details/144050839

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：通过指令导入/导出vscode扩展插件
下一篇：在Vue3项目中引入省市区联动插件

基于spring boot的医院挂号就诊系统论文
第二点：设计有效的导航，这个包括每个页面上都有导航条的显示，有时也可以在页面的底部设计导航条，当用户进入具体页面时，要设计相应的位置提示，在页面中比较特殊的位置，需要设计返回链接，可以返回上个页面，也
阅读更多2024-11-28
【Unity踩坑】Unity中父对象是非均匀缩放时出现倾斜或剪切现象
本文解决了Unity中父对象是非均匀缩放时出现倾斜或剪切的问题
阅读更多2024-11-28
「Mac玩转仓颉内测版29」基础篇9 - 数组类型详解
本篇将介绍 Cangjie 中的数组类型，包括数组的定义、创建、访问、常见操作以及在数据管理中的应用，帮助开发者熟练掌握数组的使用。
阅读更多2024-11-28
创建mapreduce项目使用maven
创建mapreduce项目使用maven
阅读更多2024-11-28
Python开源项目周排行 2024年第16周
注:当前文章会不定期进行更新。标签： ERP PDF OCR。
阅读更多2024-11-28
使用EFK收集k8s日志
首先我们使用EFK收集Kubernetes集群中的日志，本次实验讲解的是在Kubernetes集群中启动一个Elasticsearch集群，如果企业内已经有了Elasticsearch集群，可以直接将
阅读更多2024-11-28
C#基础41-45
求n以内（不包括n）同时能被3和7整数的所有自然数之和的平方根s，并作为函数值返回，最后结果s输出到控制台。44.数组x中有n个数，求出奇数的个数cn1和偶数的个数cn2以及数组x下标为奇数的元素值的
阅读更多2024-11-28
JavaScript：遍历一个对象数组，获取每个对象中 mainKeyId 对应的值，并以这个值作为新属性的键名，给该对象添加一个新属性。
假设我们有一个对象数组，每个对象包含一个mainKeyId字段，以mainKeyId的值作为新的键名，并给它添加一个新的属性。
阅读更多2024-11-28
【AI系统】谷歌 TPU v4 与光路交换
TPU v4 通过采用 7nm 工艺，翻倍的 MXU 数量，以及显著增加的内存容量和带宽，实现了性能的大幅提升。特别引人注目的是 Sparse Core 的引入，它专门针对稀疏计算进行了优化，使得 T
阅读更多2024-11-28
SpringBoot文件上传之秒传、断点续传、分片上传
比如，在线教育平台上的视频资源上传，社交平台上的图片分享，以及企业内部的知识文档管理等。这些场景对文件上传的要求也各不相同，有的追求速度，有的注重稳定性，还有的需要考虑文件大小和安全性。这对于大文件上
阅读更多2024-11-28

Spark SQL大数据分析快速上手-Hive安装

相关文章