动手学大数据-2常见的查询优化器

🕗 发布于 2025-01-17 07:56 大数据 查询优化

什么是查询优化器

查询优化器分类

Top-downOptimizer

CBO（Cost-basedOptimizer）

什么是查询优化器

前面我们说到了查询的流程：

语法分析：检查SQL拼写和语法是否有问题。

语义检查：检查SQL语句中的访问对象是否存在，即表名、列名啥的；

经过语法分析和语义检查无误之后，就会生成一棵语法分析树，进行优化器优化，生成查询计划。

所以，查询优化器的目标就是找到当前SQL查询的最佳执行计划（或者说查询树），它是由一系列物理操作符组成，这些操作符按照一定的运算关系组成查询的执行计划。

而在查询优化器中，可以分为逻辑优化阶段和物理优化阶段。

逻辑优化，就是通过改变SQL语句的内容来使得查询更加高效，并为物理优化阶段提供更多的候选执行计划。

那逻辑优化是如何改变SQL语句的内容呢？

通常采用的方式是对SQL语句进行等价变换，（基于关系代数）做查询重写。比如说，对条件表达式做等价谓词重写、条件简化，对视图进行重写，对子查询进行优化，对连接语义进行外连接消除、嵌套连接消除等。

逻辑优化中的每一步都对应着物理计算，因此逻辑优化阶段输出若干候选执行计划之后，物理优化阶段会计算这些计划的代价，从中选择代价最小的作为执行计划。

因此逻辑优化属于语法层级的优化，而物理优化实际上是一种依据代价的估算模型，相当于是从连接路径中选择代价最小的路径，因此属于物理层面的优化。

查询优化器分类

Top-downOptimizer

从目标输出开始，由上往下遍历计划树，找到完整的最优执行计划

例子：Volcano/Cascade，SQLServer

Bottom-upOptimizer

从零开始，由下往上遍历计划树，找到完整的执行计划

例子：SystemR，PostgreSQL，IBMDB2

Rule-basedOptimizer（RBO）

根据关系代数等价语义，重写查询

基于启发式规则会访问表的元信息(catalog)，不会涉及具体的表数据(data)

Cost-basedOptimizer（CBO）

使用一个模型估算执行计划的代价，选择代价最小的执行计划

RBO-关系代数

RBO: Rule-Based Optimization也即“基于规则的优化器”，该优化器按照硬编码在数据库中的一系列规则来决定SQL的执行计划。

以Oracle数据库为例，RBO根据Oracle指定的优先顺序规则，对指定的表进行执行计划的选择。比如在规则中：索引的优先级大于全表扫描。

通过Oracle的这个例子我们可以感受到，在RBO中，有着一套严格的使用规则，只要你按照规则去写SQL语句，无论数据表中的内容怎样，也不会影响到你的“执行计划”，也就是说RBO对数据不“敏感”。这就要求开发人员非常了解RBO的各项细则，不熟悉规则的开发人员写出来的SQL性能可能非常差。

但在实际的过程中，数据的量级会严重影响同样SQL的性能，这也是RBO的缺陷所在。毕竟规则是死的，数据是变化的，所以RBO生成的执行计划往往是不可靠的，不是最优的。

变为：

RBO-优化原则

Readdatalessandfaster(I/O)

Transferdatalessandfaster(Network)

Processdatalessandfaster(CPU&Memory)

优化前的逻辑计划：

下面给出四个优化规则：

RBO-列裁剪

对应的算子有没用到的列，实际中就去掉这些列，这样就减少复杂度

RBO-谓词下推

尽早地过滤数据，也就是提前将id>123的数据过滤出来了，也会减少复杂度

RBO-传递闭包

根据表达式子中的pv.userId = user.id条件，其实可以推出 pv.userId也是可以筛选出大于123的数据

RBO-RuntimeFilter

小结

CBO（Cost-basedOptimizer）

概念

使用一个模型估算执行计划的代价，选择代价最小的执行计划

执行计划的代价等于所有算子的执行代价之和

通过RBO得到（所有）可能的等价执行计划

算子代价：CPU，内存，磁盘I/O，网络I/O等代价

和算子输入数据的统计信息有关：输入、输出结果的行数，每行大小...

叶子算子Scan：通过统计原始表数据得到

中间算子：根据一定的推导规则，从下层算子的统计信息推导得到

和具体的算子类型，以及算子的物理实现有关

例子：SparkJoin算子代价=weight*row_count+(1.0-weight)*size

CBO-统计信息

原始表统计信息

表或者分区级别：行数、行平均大小、表在磁盘中占用了多少字节等

列级别：min、max、numnulls、numnotnulls、numdistinctvalue(NDV)、histogram等

推导统计信息

选择率（selectivity）：对于某一个过滤条件，查询会从表中返回多大比例的数据

基数（cardinality）：在查询计划中常指算子需要处理的行数

CBO-统计信息的收集方式

在DDL里指定需要收集的统计信息，数据库会在数据写入时收集或者更新统计信息

手动执行explainanalyzestatement，触发数据库收集或者更新统计信息

动态采样

CBO-统计信息推导规则

假设列和列之间是独立的，列的值是均匀分布

CBO-统计信息的问题

假设列和列之间是独立的，列的值是均匀分布 -->这个假设经常与现实不符

CBO-执行计划枚举

通常使用贪心算法或者动态规划选出最优的执行计划

CBO执行计划枚举-动态规划

CBO效果-TPC-DSQ25

CBO效果-TPC-DS

CBO小结

CBO使用代价模型和统计信息估算执行计划的代价

CBO使用贪心或者动态规划算法寻找最优执行计划

在大数据场景下CBO对查询性能非常重要

小结

主流RBO实现一般都有几百条基于经验归纳得到的优化规则

RBO实现简单，优化速度快

RBO不保证得到最优的执行计划

CBO使用代价模型和统计信息估算执行计划的代价

CBO使用贪心或者动态规划算法寻找最优执行计划

大数据场景下CBO对查询性能非常重要

原文地址：https://blog.csdn.net/m0_73302939/article/details/145159317

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：如何解决Outlook无法连接到服务器的问题
下一篇：hive表修改字段类型没有级连导致历史分区报错

2025最新版PyCharm安装使用指南
JetBrains公司最成名的开发工具，即为PyCharm;本文使用PyCharm社区版服务，在此，先行筑牢Python编程的能力。
阅读更多2025-01-17
踏上 C++ 编程之旅：开篇之作
通过这篇开篇博客，我们初步了解了 C++ 的魅力、搭建了开发环境并编写了第一个 C++ 程序。C++ 是一门博大精深的编程语言，还有许多知识等待我们去探索，如函数、类与对象、指针、文件操作等等。在接下
阅读更多2025-01-17
shell脚本基础练习
2、设计一个 Shell 程序，在/userdata 目录下建立50个目录，即 userl~user50，并设置每个目录的权限，其中其他用户的权限为:读;文件所有者的权限为:读、写、执行;文件所有者所
阅读更多2025-01-17
【JAVA】初识
Java 是一种非常流行的编程语言，1995 年由 Sun Microsystems（现为 Oracle 公司）发布。它被用来开发各种软件，从手机应用到大型企业级系统，甚至智能家居设备。Java 因其
阅读更多2025-01-17
2024072100-idea配置tomcat
如果有多个web模块，产生多个war包，可以点击减号删除其中一个，需要的时候再重新添加。或者都通过tomcat运行，但是Application context路径不能重复。安装tomcat后，Appl
阅读更多2025-01-17
基于机器学习的电信用户流失预测与数据分析可视化
---对高价值客户的流失可能性进行建模评分,根据模型输出为每位高价值客户赋予流失得分（如 0 - 100 分），得分越高表明流失可能性越大，按得分区间（如 0 - 30 分低风险、31 - 60 分中
阅读更多2025-01-17
grep 文本搜索工具
grep 是一个功能强大的文本搜索工具，其名字来源于 "global regular expression print" 的缩写。它能够在文本文件中快速查找特定模式或字符串，无论是
阅读更多2025-01-17
The CMap com/itextpdf/io/font/cmap/UniGB-UTF16-H was not found 异常信息
参考网上的代码，最终确定要进入这两个包，以下两个字体问题解决。The CMap com/itextpdf/io/font/cmap/UniGB-UTF16-H was not found 异常信息it
阅读更多2025-01-17
Docker部署Spring Boot + Vue项目
本文的Spring Boot + Vue项目采用若依前后端分离版项目为例，使用Docker部署项目，当然读者如果使用自己的Spring Boot + Vue项目也可以，Docker部署方法一样。
阅读更多2025-01-17
w~Transformer~合集11
随着场景理解领域的快速发展，许多研究者们开始尝试利用各种框架解决场景图生成（Scene Graph Generation, SGG）任务，并已取得了不俗的进展。但是，这些方法往往只考虑单张图像的情况，
阅读更多2025-01-17

动手学大数据-2常见的查询优化器

什么是查询优化器

查询优化器分类

Top-downOptimizer

Bottom-upOptimizer

RBO-关系代数

RBO-优化原则

RBO-列裁剪

RBO-谓词下推

RBO-传递闭包

RBO-RuntimeFilter

小结

CBO（Cost-basedOptimizer）

概念

CBO-统计信息

CBO-统计信息的收集方式

CBO-统计信息推导规则

CBO-统计信息的问题

CBO-执行计划枚举

CBO执行计划枚举-动态规划

CBO效果-TPC-DSQ25

CBO效果-TPC-DS

CBO小结

小结

相关文章