Spark：不能创建Managed表，External表已存在...

🕗 发布于 2024-11-11 09:31 spark 大数据 hive

Spark数仓建表

- - 1、Spark on Hive与Hive on Spark
  - 2、Spark数仓建表相关问题

1、Spark on Hive与Hive on Spark

1.1、Hive on Spark

Hive默认使用MapReduce作为执行引擎，即Hive on MapReduce。实际上，Hive还可以使用Tez或Spark作为其执行引擎，分别为Hive on Tez和Hive on Spark

由于MapReduce的中间计算均需要写入磁盘，Spark则是存入内存，所以总体来讲，Spark比MapReduce效率高很多，因此，企业也较少使用MapReduce

Hive on Spark是Hive既作为存储又负责SQL的编译、解析和优化，Spark只负责执行。这里Hive的执行引擎换成了Spark，不再是MapReduce

1.2、Spark on Hive

Spark on Hive是Hive只作为存储角色，Spark负责SQL的编译、解析、优化和执行。这里可以理解为Spark通过SparkSQL使用Hive语法操作Hive表，底层运行的仍然是Spark RDD

具体步骤如下：

执行SparkSQL，加载Hive的配置文件，获取Hive的元数据信息
根据获取到的Hive元数据信息得到Hive表的数据
通过SparkSQL来操作Hive表的数据

也就是说，Spark使用Hive来提供表的Metadata信息

2、Spark数仓建表相关问题

前些天，在基于Spark数仓建表时，报了如下错误：

Can not create the managed table('db.table'). The associated location('hdfs://date/warehouse/tablespace/external/hive/db/table') already exists.

报错信息显示：不能创建管理表，外表已存在…

不得不说，这个报错还真有点奇怪…

事情的起因也很简单，由于我们使用的是Spark数仓，即Spark on Hive模式，相较于Hive，Spark建表默认为外（External）表，而Hive是管理（Managed）表

由于基于Spark on Hive，因此，Spark在获取Hive表的数据时会先去获取Hive的元数据信息，因此，Spark建表会先根据元数据信息校验管理表是否存在，如果已经存在一个相同的管理表，Spark建表则会报如上异常

解决的方案也很简单，删除已存在的不必要的管理表，然后重新建表；或者创建管理表不存在的Spark表即可

参考文章：
https://baijiahao.baidu.com/s?id=1757731374695957147&wfr=spider&for=pc

原文地址：https://blog.csdn.net/weixin_55629186/article/details/143662993

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：基于SSM（Spring + Spring MVC + MyBatis）框架开发的电能计量与客服服务管理系统
下一篇：Tcp/Ip协议，tcp相关文章，网络编程，通信协议文章汇总

【已为网站上传证书,却显示不安全】
【已为网站上传证书,却显示不安全】
阅读更多2024-11-16
Jtti：服务器总是自动重启怎么办?
1.查看系统日志：通过查看系统日志文件(如/var/log/syslog、/var/log/messages或Windows Event Viewer)获取错误信息，找出重启原因。解决方案：查看系统日
阅读更多2024-11-16
Scala的Array(1)
Scala的Array表示长度不可变的数组，若需要定义可变数组需要倒包。
阅读更多2024-11-16
Scala中的Array
Array是一种在Scala中用于存储固定大小，相同类型元素的数据结构，Array是可变。类型有两种：Array表示长度不可变的数组，和ArrayBuffer表示长度可变的数组。(一)Array的定义
阅读更多2024-11-16
llama factory lora 微调 qwen2.5 7B Instruct模型
项目背景甲方提供一台三卡4080显卡需要进行qwen2.5 7b Instruct模型进行微调。以下为整体设计。要使用对进行，流程与之前提到的模型类似。LoRA 微调是一种高效的微调方法，通过低秩
阅读更多2024-11-16
大数据中的时序数据，以及时序数据架构设计解决方案
时序数据架构设计需根据具体的应用场景、数据量和实时性要求来选择合适的方案。如果数据量较小且不需要实时处理，关系型数据库可能足够；如果数据量大且需要高效实时查询，可以选择时序数据库；而对于大规模分布式处
阅读更多2024-11-16
Linux网络——网络初识
在谈及网络之前，我们要先对学的知识有一个了解网络的本质就是获取数据，而系统的本质就是加工数据。
阅读更多2024-11-16
革新预测领域：频域融合时间序列预测，深度学习新篇章，科研涨点利器
2024发论文&模型涨点之——频域+时间序列频域+时间序列不仅能提供更丰富的信息，还能提高模型性能和预测准确性。对于论文er来说，是个可发挥空间大、可挖掘创新点多的研究方向。当前，学术界的目光
阅读更多2024-11-16
本地启动浏览器，并禁用web安全性，解决本地启动时，服务端强制要求https协议导致请求不通的问题
本地启动浏览器，并禁用web安全性，解决本地启动时，服务端强制要求https协议导致请求不通的问题
阅读更多2024-11-16
推荐一款来自韩国的影音全能播放器：KMPlayer播放器
来自韩国的影音全能播放器，与Mplayer一样从linux平台移植而来的Kmplayer(简称KMP)几乎可以播放您系统上所有的影音文件。通过各种插件扩展KMP可以支持层出不穷的新格式。强大的插件功能
阅读更多2024-11-16

Spark：不能创建Managed表，External表已存在...

Spark数仓建表

1、Spark on Hive与Hive on Spark

2、Spark数仓建表相关问题

相关文章