Spark SQL DML语句

🕗 发布于 2024-12-29 14:51 spark sql 大数据

DML（Data Manipulation Language，数据操作语言）操作主要用来对数据进行插入、更新和删除操作。本节主要介绍Spark SQL中的DML操作。

Spark SQL提供了一个命令行工具，可以让用户直接通过命令行运行SQL查询。Spark SQL可以兼容Hive，以便Spark SQL支持Hive表访问、UDF（用户自定义函数）以及Hive查询语言（HiveQL/HQL）。

若要使用Spark SQL CLI的方式访问和操作Hive表数据，需要对Spark SQL进行如下所示的环境配置，将Spark SQL连接到一个部署好的Hive上。

（1）将hive-site.xml复制到/home/hadoop/app/spark/conf/目录下。

（2）在/home/hadoop/app/spark/conf/spark-env.sh文件中配置MySQL驱动。

将MySQL驱动复制到所有节点的Spark安装包的jars目录下，并在/home/hadoop/app/spark/ conf/spark-env.sh末尾添加以下内容：

export SPARK_CLASSPATH=/home/hadoop/app/spark/jars/mysl-connector-java-5.1.32.jar

然后，启动MySQL服务。

（3）启动 Hive的metastore服务：hive–service metastore &。

（4）进入/home/hadoop/app/spark/sbin/目录，执行./start-all.sh，启动Spark。

（5）进入/home/hadoop/app/spark/bin目录，执行./spark-sql，开启Spark SQL CLI。

spark-sql本质上是通过spark-submit调用Spark SQL的API，每个spark-sql单独启动一个应用。

一旦进入Spark SQL CLI，就可以执行SQL语句。在DML语句中，通过建表语句中的Using子句来指定具体的数据源类型。如果没有通过Using指定，则默认是通过Hive建表，相当于直接通过Spark SQL来操作Hive表的数据。

5.2.1 插入数据

INSERT语句将新行插入表中或覆盖表中的现有数据。插入的行可以由值表达式或查询结果指定。

1. 使用VALUES子句进行单行插入

CREATE TABLE students (name VARCHAR(64), address VARCHAR(64))
    USING PARQUET PARTITIONED BY (student_id INT);
INSERT INTO students VALUES
    ('Amy Smith', '123 Park Ave, San Jose', 111111);

SELECT * FROM students;
+---------+----------------------+----------+
|     name|    address           |student_id|
+---------+----------------------+----------+
|Amy Smith|123 Park Ave, San Jose|    111111|
+---------+----------------------+----------+

2. 使用VALUES子句进行多行插入

INSERT INTO students VALUES
    ('Bob Brown', '456 Taylor St, Cupertino', 222222),
    ('Cathy Johnson', '789 Race Ave, Palo Alto', 333333);

SELECT * FROM students;
+-------------+------------------------+----------+
|         name|                 address|student_id|
+-------------+------------------------+----------+
|    Amy Smith|  123 Park Ave, San Jose|    111111|
+-------------+------------------------+----------+
|    Bob Brown|456 Taylor St, Cupertino|    222222|
+-------------+------------------------+----------+
|Cathy Johnson| 789 Race Ave, Palo Alto|    333333|
+--------------+-----------------------+----------+

3. 使用SELECT语句插入数据

假设已经创建了一张persons表，里面包含两条数据：

SELECT * FROM persons;
+-------------+--------------------------+---------+
|         name|                   address|      ssn|
+-------------+--------------------------+---------+
|Dora Williams|134 Forest Ave, Menlo Park|123456789|
+-------------+--------------------------+---------+
|  Eddie Davis|   245 Market St, Milpitas|345678901|
+-------------+--------------------------+---------+

INSERT INTO students PARTITION (student_id = 444444)
    SELECT name, address FROM persons WHERE name = "Dora Williams";

使用SELECT语句插入一条数据，查询结果如下：

SELECT * FROM students;
+-------------+--------------------------+----------+
|         name|                   address|student_id|
+-------------+--------------------------+----------+
|    Amy Smith|    123 Park Ave, San Jose|    111111|
+-------------+--------------------------+----------+
|    Bob Brown|  456 Taylor St, Cupertino|    222222|
+-------------+--------------------------+----------+
|Cathy Johnson|   789 Race Ave, Palo Alto|    333333|
+-------------+--------------------------+----------+
|Dora Williams|134 Forest Ave, Menlo Park|    444444|
+-------------+--------------------------+----------+

4. 使用TABLE语句插入数据

提前创建一张表visiting_students，插入两条数据，查询结果显示如下：

SELECT * FROM visiting_students;
+-------------+---------------------+----------+
|         name|              address|student_id|
+-------------+---------------------+----------+
|Fleur Laurent|345 Copper St, London|    777777|
+-------------+---------------------+----------+
|Gordon Martin| 779 Lake Ave, Oxford|    888888|
+-------------+---------------------+----------+

然后利用Table语句将visiting_students表的数据插入students表中。注意，这里不是覆盖，而是追加数据。

INSERT INTO students TABLE visiting_students;

SELECT * FROM students;
+-------------+--------------------------+----------+
|         name|                   address|student_id|
+-------------+--------------------------+----------+
|    Amy Smith|    123 Park Ave, San Jose|    111111|
+-------------+--------------------------+----------+
|    Bob Brown|  456 Taylor St, Cupertino|    222222|
+-------------+--------------------------+----------+
|Cathy Johnson|   789 Race Ave, Palo Alto|    333333|
+-------------+--------------------------+----------+
|Dora Williams|134 Forest Ave, Menlo Park|    444444|
+-------------+--------------------------+----------+
|Fleur Laurent|     345 Copper St, London|    777777|
+-------------+--------------------------+----------+
|Gordon Martin|      779 Lake Ave, Oxford|    888888|
+-------------+--------------------------+----------+

5. 使用列列表插入数据

INSERT INTO students (address, name, student_id) VALUES
    ('Hangzhou, China', 'Kent Yao', 11215016);

SELECT * FROM students WHERE name = 'Kent Yao';
+---------+----------------------+----------+
|     name|               address|student_id|
+---------+----------------------+----------+
|Kent Yao |       Hangzhou, China|  11215016|
+---------+----------------------+----------+

5.2.2 加载数据

LOAD DATA语句将数据从用户指定的目录或文件加载到Hive表中。如果指定了目录，则加载该目录中的所有文件；如果指定了文件，则仅加载单个文件。此外，该LOAD DATA语句还采用可选的分区规范。当指定分区时，数据文件（当输入源是目录时）或单个文件（当输入源是文件时）被加载到目标表的分区中。

如果该表已缓存，则该命令会清除该表的缓存数据以及引用该表的所有依赖项。下次访问表或依赖项时，缓存将被延迟填充。

LOAD DATA语句的格式如下：

LOAD DATA [ LOCAL ] INPATH path [ OVERWRITE ] INTO TABLE table_identifier [ partition_spec ]

下面举例说明加载数据的用法。

首先，创建表students，并添加一条数据：

CREATE TABLE students (name VARCHAR(64), address VARCHAR(64))
    USING HIVE PARTITIONED BY (student_id INT);
INSERT INTO students VALUES
    ('Amy Smith', '123 Park Ave, San Jose', 111111);

SELECT * FROM students;
+---------+----------------------+----------+
|     name|    address           |student_id|
+---------+----------------------+----------+
|Amy Smith|123 Park Ave, San Jose|    111111|
+---------+----------------------+----------+

在Spark SQL中，可以使用CREATE TABLE语句结合USING HIVE选项，来创建一个指向Hive表的Spark SQL表。这允许我们利用Spark SQL进行查询，但数据和元数据仍然存储在Hive中。示例代码如下：

CREATE TABLE my_spark_table
USING HIVE
OPTIONS (
  tableName "my_hive_table"
)

在这个例子中，my_spark_table是在Spark SQL中创建的表的名称，而my_hive_table是Hive中已存在的表的名称。当查询my_spark_table时，Spark SQL会查询Hive中的my_hive_table表。

接下来用Spark SQL创建一张表test_load，该表的数据和元数据会指向Hive中。最后将students表中的数据加载到test_load表中。

CREATE TABLE test_load (name VARCHAR(64), address VARCHAR(64), student_id INT) USING HIVE;
LOAD DATA LOCAL INPATH '/user/hive/warehouse/students' OVERWRITE INTO TABLE test_load;

SELECT * FROM test_load;
+---------+----------------------+----------+
|     name|            address   |student_id|
+---------+----------------------+----------+
|Amy Smith|123 Park Ave, San Jose|    111111|
+---------+----------------------+----------+

如何优化Spark SQL中的DML操作，以提升大数据分析性能，尤其是在高并发插入和更新操作场景下？

在Spark SQL中优化DML操作，尤其是高并发的插入和更新操作，可以通过以下方法来提升性能：

数据本地性优化：确保Spark任务能够访问到数据的本地副本，以减少网络延迟。
分区表：使用分区表可以显著减少需要扫描的数据量，提升查询性能。
索引：适当的索引可以加快查询速度，但是应当注意，过多的索引会影响写操作性能。
批量操作：使用批量插入和更新，而不是单条操作，可以减少网络开销和Spark任务的启动时间。
动态分区插入：对于分区表，使用INSERT OVERWRITE代替INSERT，可以避免在每次插入时重新计算分区。
内存优化：调整Spark执行内存参数，确保内存使用最优化。
并行度控制：适当控制Spark任务的并行度，避免资源过度竞争。
数据压缩：在存储层面优化数据压缩方式，减少存储空间同时提升读写性能。

在实际应用中，根据具体的数据特征、资源限制和业务需求，可能需要进一步的调优以达到最优性能。

原文地址：https://blog.csdn.net/brucexia/article/details/144722566

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：Jupyter在运行上出现错误：ModuleNotFoundError: No module named ‘wordcloud‘
下一篇：发明专利与实用新型专利申请过程及自助与代办方式对比

迅为瑞芯微RK3562开发板/核心板应用于人脸跟踪、身体跟踪、视频监控、自动语音识别(ASR)、图像分类驾驶员辅助系统(ADAS)、车牌识别、物体识别等
iTOP-3562开发板/核心板采用瑞芯微RK3562处理器，内部集成了四核A53+Mali G52架构，主频2GHZ，内置1TOPSNPU算力，RK809动态调频。支持几乎全格式的H.264解码，支
阅读更多2024-12-31
低精度只适用于未充分训练的LLM？腾讯提出LLM量化的scaling laws
尽管有一些研究声称原生的低比特LLM可以媲美fp16/bf16精度下的表现，但这些研究普遍都是在未充分语言模型上得到的结果从而推出的结论，研究人员认为在充分训练的情况下进行比较的话，低比特LLM也将很
阅读更多2024-12-31
医疗数仓配置Flume
Flume需要将Kafka中各topic的数据传输到HDFS，因此选用KafkaSource以及HDFSSink。对于安全性要求高的数据（不允许丢失）选用FileChannel，允许部分丢失的数据如日
阅读更多2024-12-31
Go中CAS算法
CAS算法常被用作乐观锁的实现方式，用于解决并发问题。例如，在计数器、缓存等场景中，可以使用CAS算法来确保数据的一致性和正确性。CAS操作会检查内存位置V的当前值是否与预期的旧值A相等。这一操作是原
阅读更多2024-12-31
Node.js 记账本项目总结
在使用Node.js结合Express框架构建记账本的过程中，遇到了一些常见的问题，这些问题主要集中在路径处理、包管理工具的选择、开发环境优化以及HTTP响应处理等方面。
阅读更多2024-12-31
Java 处理base64文件上传
在系统内有一个类似于公告的模块，如果里面添加的文章不是选择富文本上传图片的方式，而是选择复制别的文章直接粘贴到系统内的富文本，里面的图片就不会url，而是图片的base64格式，这样会导致数据库存储压
阅读更多2024-12-31
Tailwind CSS 实战：现代登录注册页面开发
基础结构搭建表单组件开发社交登录集成响应式适配深色模式支持动画效果表单验证性能优化可访问性增强通过合理使用 Tailwind CSS 的原子类，我们不仅实现了美观的界面，还确保了良好的用户体验和可维护
阅读更多2024-12-31
node.js下载、安装、设置国内镜像源（永久）（Windows11）
系统：Windows 11。
阅读更多2024-12-31
Slate文档编辑器-Decorator装饰器渲染调度
在这里我们主要讨论了slate中的decoration装饰器的实现，以及在实际使用中可能会遇到的问题，主要是在跨节点的情况下，我们需要将range拆分为多个range，然后分别进行处理，并且还分析了源
阅读更多2024-12-31
python去水印
请注意，这种方法仅适用于简单的水印去除，对于复杂的水印或嵌入到图像纹理中的水印，可能无法达到理想的效果。在实际应用中，还可以考虑使用深度学习的方法，如生成对抗网络（GAN）来去除水印，但需要大量的数据
阅读更多2024-12-31