自学内容网 自学内容网

Spark:不能创建Managed表,External表已存在...






1、Spark on Hive与Hive on Spark


1.1、Hive on Spark

Hive默认使用MapReduce作为执行引擎,即Hive on MapReduce。实际上,Hive还可以使用Tez或Spark作为其执行引擎,分别为Hive on Tez和Hive on Spark

由于MapReduce的中间计算均需要写入磁盘,Spark则是存入内存,所以总体来讲,Spark比MapReduce效率高很多,因此,企业也较少使用MapReduce

Hive on Spark是Hive既作为存储又负责SQL的编译、解析和优化,Spark只负责执行。这里Hive的执行引擎换成了Spark,不再是MapReduce

1.2、Spark on Hive

Spark on Hive是Hive只作为存储角色,Spark负责SQL的编译、解析、优化和执行。这里可以理解为Spark通过SparkSQL使用Hive语法操作Hive表,底层运行的仍然是Spark RDD

具体步骤如下:

  • 执行SparkSQL,加载Hive的配置文件,获取Hive的元数据信息

  • 根据获取到的Hive元数据信息得到Hive表的数据

  • 通过SparkSQL来操作Hive表的数据

也就是说,Spark使用Hive来提供表的Metadata信息

2、Spark数仓建表相关问题


前些天,在基于Spark数仓建表时,报了如下错误:

Can not create the managed table('db.table'). The associated location('hdfs://date/warehouse/tablespace/external/hive/db/table') already exists.

报错信息显示:不能创建管理表,外表已存在…

不得不说,这个报错还真有点奇怪…

事情的起因也很简单,由于我们使用的是Spark数仓,即Spark on Hive模式,相较于Hive,Spark建表默认为外(External)表,而Hive是管理(Managed)表

由于基于Spark on Hive,因此,Spark在获取Hive表的数据时会先去获取Hive的元数据信息,因此,Spark建表会先根据元数据信息校验管理表是否存在,如果已经存在一个相同的管理表,Spark建表则会报如上异常

解决的方案也很简单,删除已存在的不必要的管理表,然后重新建表;或者创建管理表不存在的Spark表即可



参考文章:
https://baijiahao.baidu.com/s?id=1757731374695957147&wfr=spider&for=pc



原文地址:https://blog.csdn.net/weixin_55629186/article/details/143662993

免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!