Spark SQL----INSERT OVERWRITE DIRECTORY

🕗 发布于 2024-07-20 08:31 spark sql 大数据 分布式 apache

Spark SQL----INSERT OVERWRITE DIRECTORY

一、描述
二、语法
三、参数
四、例子
- 4.1 Spark format
- 4.2 Hive format

一、描述

INSERT OVERWRITE DIRECTORY语句使用spark文件格式或Hive Serde，用新的值覆盖目录中的现有数据。使用Hive Serde必须启用Hive支持。插入的行可以由值表达式指定，也可以由查询结果指定。

二、语法

INSERT OVERWRITE [ LOCAL ] DIRECTORY [ directory_path ]
    { spark_format | hive_format }
    { VALUES ( { value | NULL } [ , ... ] ) [ , ( ... ) ] | query }

spark_format定义为

USING file_format [ OPTIONS ( key = val [ , ... ] ) ]

hive_format定义为

[ ROW FORMAT row_format ] [ STORED AS hive_serde ]

三、参数

directory_path
指定目标目录。LOCAL关键字用于指定目录在本地文件系统上。在spark文件格式中，也可以使用path在OPTIONS中指定，但directory_path和path选项不能同时指定。
file_format
指定用于插入的文件格式。有效选项为TEXT、CSV、JSON、JDBC、PARQUET、ORC、HIVE、LIBSVM，或org.apache.spark.sql.execution.datasources.FileFormat的自定义实现的完全限定类名。
OPTIONS ( key = val [ , … ] )
指定一个或多个用于写入文件格式的选项。
hive_format
指定用于插入的文件格式。row_format和hive_serde都是可选的。ROW FORMAT SERDE只能与 TEXTFILE, SEQUENCEFILE或RCFILE一起使用，而ROW FORMAT DELIMITED只能与TEXTFILE一起使用。如果两者都没有定义，spark将使用TEXTFILE。
row_format
指定此插入的行格式。有效的选项是SERDE子句和DELIMITED子句。SERDE子句可用于为此插入指定自定义SerDe。或者，DELIMITED子句可以用于指定本机SerDe并声明分隔符、转义符、null字符等。
hive_serde
指定此插入的文件格式。有效选项为TEXTFILE、SEQUENCEFILE、RCFILE、ORC、PARQUET和AVRO。你也可以使用INPUTFORMAT和OUTPUTFORMAT指定自己的输入和输出格式。
VALUES ( { value | NULL } [ , … ] ) [ , ( … ) ]
指定要插入的值。可以插入显式指定的值或NULL。必须使用逗号分隔子句中的每个值。可以指定多个值集来插入多行。
query
生成要插入的行的查询。它可以是以下格式之一：
- SELECT语句
- Inline Table语句
- FROM语句

四、例子

4.1 Spark format

INSERT OVERWRITE DIRECTORY '/tmp/destination'
    USING parquet
    OPTIONS (col1 1, col2 2, col3 'test')
    SELECT * FROM test_table;

INSERT OVERWRITE DIRECTORY
    USING parquet
    OPTIONS ('path' '/tmp/destination', col1 1, col2 2, col3 'test')
    SELECT * FROM test_table;

4.2 Hive format

INSERT OVERWRITE LOCAL DIRECTORY '/tmp/destination'
    STORED AS orc
    SELECT * FROM test_table;

INSERT OVERWRITE LOCAL DIRECTORY '/tmp/destination'
    ROW FORMAT DELIMITED FIELDS TERMINATED BY ','
    SELECT * FROM test_table;

原文地址：https://blog.csdn.net/gabriel_wang_sh/article/details/137500031

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：java基础:数组,排序,查找
下一篇：基于 Gunicorn、Flask 和 Docker 的 Web 应用开发

防火墙----iptables
防火墙会从以上至下的顺序来读取配置的策略规则，在找到匹配项后就立即结束匹配工作并去执行匹配项中定义的行为（即放行或阻止）。如果在读取完所有的策略规则之后没有匹配项，就去执行默认的策略。iptables
阅读更多2024-11-18
Python代码热流系统进行建模分析
从指定的Excel文件中读取与热流相关的数据，包括管径、长度、压力、流量、入口过冷焓等参数。根据读取的数据，利用库计算多种水的物性参数，如饱和焓值、密度、比热容、粘度等。通过一系列复杂的物理公式和迭代
阅读更多2024-11-18
二、vue指令
点击展开或收起时，把内容区域显⽰或者隐藏。v-bind:属性名="vue变量"指代事件对象传给事件处理函数。⽅便通过变量控制⼀套标签出现。修饰符给事件扩展额外功能。修饰符名即可使⽤
阅读更多2024-11-18
信奥学习规划（CSP-J/S)
CSP - J/S（非专业级软件能力认证 - 入门级 / 提高级）的信奥学习规划
阅读更多2024-11-18
ctfshow DSBCTF web部分wp
需要值不同而 md5 相同，有长度限制不能进行强碰撞，尝试数组绕过也不行，这里注意到可以让其类型不同而值相同进行绕过，构造 pop 链最后得到 flag。
阅读更多2024-11-18
【Linux】进程的优先级
cpu资源分配的先后顺序，就是指进程的优先权（priority）。优先权高的进程有优先执行权利。配置进程优先权对多任务环境的linux很有用，可以改善系统性能。还可以把进程运行到指定的CP
阅读更多2024-11-18
Linux—进程学习-02
进程相关的概念的学习【利用系统调用fork创建子进程】【利用fork实现多进程】【操作系统层面上进程状态运行、阻塞、挂起的理解和学习】【Linux操作系统具体的进程状态的理解和学习（R、S、T、t、D
阅读更多2024-11-18
HMI FUXA测试
FUXA是基于Web的，过程（SCADA、HMI、看板等）可视化软件。可创建现代的过程可视化，使用独立的设计器，显示机器和实时数据。。
阅读更多2024-11-18
基于Java Springboot城市交通管理系统
城市交通管理系统的目的是让使用者可以更方便的将人、设备和场景更立体的连接在一起。能让用户以更科幻的方式使用产品，体验高科技时代带给人们的方便，同时也能让用户体会到与以往常规产品不同的体验风格。这就意味
阅读更多2024-11-18
pytorch中的ImageFolder 用法
是 PyTorch 中模块提供的一个常用类，用于从文件夹中加载图像数据。它是一种非常方便的方式来加载按文件夹结构组织的图像数据集。这个类能够自动将文件夹中的子目录作为标签，并且将其中的图像文件加载为
阅读更多2024-11-18

Spark SQL----INSERT OVERWRITE DIRECTORY

Spark SQL----INSERT OVERWRITE DIRECTORY

一、描述

二、语法

三、参数

四、例子

4.1 Spark format

4.2 Hive format

相关文章