SQL 语法学习：深入了解与大数据处理的桥梁

🕗 发布于 2024-09-21 09:55 sql 学习 数据库

随着大数据技术的快速发展，SQL（Structured Query Language，结构化查询语言）作为一种标准的数据库查询语言，依旧在数据处理中占据着不可或缺的地位。无论是传统的关系型数据库还是如今流行的分布式大数据处理框架（如Hive、Presto等），SQL的运用都十分广泛。因此，掌握SQL语法，不仅是开发人员、数据分析师、数据工程师的基础技能，也是在大数据处理中的重要桥梁。

一、SQL 简介

SQL 是用于管理和操作关系型数据库的标准语言。它主要用于查询、插入、更新、删除数据库中的数据，并管理数据库的表结构等。SQL 最初由IBM公司开发，之后逐渐演变成了各大数据库管理系统（如MySQL、PostgreSQL、SQL Server、Oracle 等）支持的标准语言。

SQL分为四个主要部分：

**DQL (数据查询语言)：**用于查询数据库中的数据，常见命令有 SELECT。
**DML (数据操作语言)：**用于插入、更新或删除数据库中的数据，常见命令有 INSERT、UPDATE、DELETE。
**DDL (数据定义语言)：**用于定义和管理数据库的结构，常见命令有 CREATE、ALTER、DROP。
**DCL (数据控制语言)：**用于控制访问权限，常见命令有 GRANT、REVOKE。

二、SQL 基础语法

1. SELECT 语句

SELECT 语句是 SQL 中最常用的查询语句，语法格式如下：

SELECT 列名1, 列名2, … FROM 表名 WHERE 条件 GROUP BY 列名 HAVING 条件 ORDER BY 列名 ASC|DESC;

举例来说，查询员工表中所有员工的姓名和职位：

SELECT name, position FROM employees;

2. INSERT 语句

INSERT 语句用于向表中插入新数据，基本语法如下：

INSERT INTO 表名 (列1, 列2, …) VALUES (值1, 值2, …);

例如，向员工表中添加一条新记录：

INSERT INTO employees (name, position, salary) VALUES ('Alice', 'Manager', 8000);

3. UPDATE 语句

UPDATE 语句用于修改表中的数据，语法格式如下：

UPDATE 表名 SET 列1 = 值1, 列2 = 值2, … WHERE 条件;

例如，将员工Alice的薪水调整为9000：

UPDATE employees SET salary = 9000 WHERE name = 'Alice';

4. DELETE 语句

DELETE 语句用于删除表中的数据，语法格式如下：

DELETE FROM 表名 WHERE 条件;

例如，删除员工表中名字为Alice的员工：

DELETE FROM employees WHERE name = 'Alice';

三、SQL 高级语法及应用

1. JOIN 查询

在大数据场景中，通常需要将多个表的数据进行关联查询，这就需要用到 JOIN。JOIN 根据关联列，将不同表中的数据组合在一起。

INNER JOIN（内连接）： 只返回两个表中匹配的数据。
LEFT JOIN（左连接）： 返回左表中的所有记录，即使右表中没有匹配的数据。
RIGHT JOIN（右连接）： 返回右表中的所有记录，即使左表中没有匹配的数据。
FULL JOIN（全连接）： 返回两个表中的所有记录，当没有匹配时则为 NULL。

例如，查询员工和部门信息：

SELECT employees.name, departments.department_name FROM employees INNER JOIN departments ON employees.department_id = departments.department_id;

2. 子查询

在大数据处理中，有时需要在一个查询中嵌套另一个查询，这就是子查询。子查询可以用在 SELECT、FROM、WHERE 等语句中。

例如，查询薪水高于部门平均薪水的员工：

SELECT name, salary FROM employees WHERE salary > (SELECT AVG(salary) FROM employees);

3. 窗口函数

窗口函数是一种高级查询功能，常用于分析类查询。与 GROUP BY 不同，窗口函数不会对结果进行分组，而是保持原始表的行数。

常见的窗口函数有：

ROW_NUMBER(): 为查询结果中的每一行分配唯一的序号。
RANK(): 为查询结果中的行分配排名，相同的值会得到相同的排名。
DENSE_RANK(): 与 RANK() 类似，但不跳过排名。

例如，按照薪水对员工进行排名：

SELECT name, salary, RANK() OVER (ORDER BY salary DESC) AS rank FROM employees;

四、大数据中的 SQL 应用

大数据处理平台如 Hadoop、Spark、Flink 等，通过集成类似 SQL 的查询接口，简化了对大规模数据的操作和处理。以下是一些大数据平台对 SQL 的支持：

1. Hive

Apache Hive 是基于 Hadoop 的数据仓库工具，支持类 SQL 语法的查询，通常用于对存储在 Hadoop HDFS 中的数据进行批处理分析。Hive 的 SQL 语法称为 HiveQL，与传统的 SQL 类似，但支持分布式查询。

Hive 的优势在于处理超大规模数据，查询操作通过 MapReduce 作业分布式执行。如下是 Hive 中的一个简单查询示例：

SELECT department, COUNT(*) AS employee_count FROM employees GROUP BY department;

2. Presto

Presto 是一种支持分布式 SQL 查询的开源工具，适用于查询大规模数据集，包括来自 Hadoop、关系数据库等的数据源。Presto 通过减少延迟来提供接近实时的查询体验。

Presto 与 Hive 类似，但速度更快，特别适合低延迟的数据分析场景。

3. Spark SQL

Spark SQL 是 Apache Spark 提供的 SQL 查询模块。它支持通过 SQL 语言处理分布式数据集，并提供与传统 SQL 类似的功能。Spark SQL 还能与机器学习库 Spark MLlib 结合，处理结构化数据和机器学习模型训练。

例如，通过 Spark SQL 查询 JSON 文件中的数据：

SELECT name, age FROM people WHERE age > 30;

五、总结

SQL 语法是数据处理领域的基础技能，无论是在传统关系型数据库管理中，还是在大数据技术中都起到了至关重要的作用。通过对 SQL 基础语法和高级特性的掌握，可以帮助我们更加高效地进行数据的查询、分析和处理。而随着大数据平台如 Hive、Presto、Spark SQL 等的发展，SQL 也在大数据处理框架中找到了新的应用场景。希望本文能为大家提供一个系统性的 SQL 学习指南，并在大数据处理的实际工作中有所助益。

参考文献：

《SQL 权威指南》
Apache Hive 官方文档
Apache Presto 官方文档
Apache Spark 官方文档

原文地址：https://blog.csdn.net/u012263104/article/details/142379091

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：go 实现操作mysql并且防止sql注入
下一篇：Vue 项目中引入 Axios 详解

[NewStarCTF 2023]include 0。0--详细解析
使用php伪协议时要考虑目标服务器是否开启了相关配置。php://filter有很多变种，目前还不是很熟悉这个伪协议，明天总结一下。
阅读更多2024-11-18
Ubuntu22.04LTS 部署前后端分离项目
（1）将dist上传到云服务器，如我的路径是/home/fcty/frontend/dist这样。（3）将编写好的配置文件复制到对应的/etc/nginx/sites-enabled/下，（2）编写
阅读更多2024-11-18
externally-managed-environment
系统范围：使用 APT。隔离环境：使用虚拟环境或pipx。当前用户：使用--user参数。希望这篇文章能帮助你解决报错问题，并成功完成模块安装！
阅读更多2024-11-18
CTFHub-hate_php
用取反操作，发现环境限制，也不行。利用通配符来匹配文件路径。不能用定义变量的做法。
阅读更多2024-11-18
ThinkPHP中使用ajax接收json数据的方法
在ThinkPHP框架中，使用AJAX接收JSON数据通常涉及前端和后端的交互。前端通过AJAX发送JSON数据到后端，后端控制器接收并处理这些数据，然后可能返回一些响应数据。
阅读更多2024-11-18
计算机网络学习笔记——第一章、概述
学习计算机网络的笔记
阅读更多2024-11-18
基于isSpring的PPT转换
打开 ispring SDK 编辑器，编辑器文件目录默认为 C:\Program Files\iSpring\Platform Ultimate 8\PPT Conversion SDK\CodeBu
阅读更多2024-11-18
flume对kafka中数据的导入导出、datax对mysql数据库数据的抽取
抽取trans_info.json的数据到kafka上，对其中的tr_flag=0的数据进行过滤抛弃，只保留正常的状态数据在pom.xml中放入依赖包：使用java代码，自定义拦截器：@Overrid
阅读更多2024-11-18
基于Kafka2.1解读Consumer原理
Producer的逻辑是把消息往外发，所以Sender运行的越快，client这边为了维护batch而消耗的资源（内存和CPU越少）；而如果Consumer也这么干，实际消费速度赶不上fetch速度的
阅读更多2024-11-18
【开源免费】基于Vue和SpringBoot的私人健身与教练预约管理系统（附论文）
基于java技术、springboot框架、B/S机构、Mysql数据库设计并实现了私人健身与教练预约管理系统。系统主要包括首页，个人中心，用户管理，教练管理，健身项目管理，项目分类，教练信息管理，教
阅读更多2024-11-18