自然语言到 SQL 的曙光：我们准备好了吗？

🕗 发布于 2024-10-09 08:01 sql 数据库 人工智能 AIGC

发布于：2024 年 10 月 08 日

各位读者，国庆假期已过，我们打工人要开启奋斗新征程了，今天小编也是刚上班假期综合征还没过去，就被抓过来读论文，还好我在假期没闲着，整理了几篇关于 NL2SQL 的最新论文跟大家分享。
在当今数字化时代，将用户的自然语言问题转换为SQL查询（nl2sql）对于降低访问关系数据库的门槛具有重要意义。随着大型语言模型（LLM）的出现，nl2sql任务的性能得到了显著提升，但这也引发了一个关键问题：我们是否已经完全准备好在生产环境中部署nl2sql模型？

一、nl2sql的发展历程与研究背景

（一）nl2sql方法的演进

![](https://img-blog.csdnimg.cn/img_convert/3c5e6e7d305329e8b1407ab51a167439.png)

从图1和图2可以看出，nl2sql 方法在过去二十年中经历了从 基于规则 的方法、基于神经网络 的方法、基于可调节预训练语言模型（PLM）到基于大型语言模型（LLM）的演变。早期的基于规则的方法如 NaLIR，依赖于预定义规则或语义解析器，适应性、可扩展性和泛化能力有限。随着神经网络的发展，出现了像IRNet这样的序列到序列方法。2017年左右，Transformer和Spider数据集的引入推动了基于PLM的方法的兴起，例如BERT和T5等模型在基准数据集上取得了很好的结果。而近年来，ChatGPT和GPT - 4等大型语言模型的出现使基于LLM的方法占据了主导地位。

（二）现有研究的局限性

1. **忽视使用场景：**现有评估通常报告在整个基准数据集（如 Spider）上的总体结果，缺乏对特定数据子集的详细比较。例如，没有根据不同的 SQL 特性或数据库领域进行区分，无法深入了解不同 nl2sql 模型对于特定 SQL 查询类型或特定领域场景的相对有效性。 2. **缺乏直接和全面的比较：**许多基于 LLM 和 PLM 的 nl2sql 解决方案没有在成熟的基准和定制数据集上进行系统的比较。 3. **对 nl2sql 设计空间的探索有限：**当前的 nl2sql 研究和实践在使用 LLM 和 PLM 模块探索 nl2sql 框架的设计空间方面存在局限，限制了我们对如何协同整合不同架构和功能模块以增强 nl2sql 解决方案的理解。

二、NL2SQL360 评估框架

（一）框架概述

![](https://img-blog.csdnimg.cn/img_convert/3267fb2253f336c1ae6c43a32c12a730.png)

为了解决上述问题，本文提出了一个多角度的nl2sql评估框架NL2SQL360，其框架如图4所示，包含六个核心组件。

基准数据集（Benchmark Datasts）
维护了广泛使用的基准数据集，如Spider、BIRD、Spider-Realistic、Dr.Spider、KaggleDBQA、WikiSQL 等。
模型库（Model Zoo）
包含了在 Spider 和 BIRD 排行榜上的一系列有竞争力的开源 nl2sql 模型，主要包括基于 LLM 和基于 PLM 的方法。
数据集过滤（Dataset Filter）

引入了数据集过滤机制，可根据不同标准将测试数据集分离为更有针对性的子集。例如：
- SQL 复杂性（SQL Complexity）：从简单到复杂的查询进行分类，以评估nl2sql方法处理不同难度SQL的能力。
- SQL 特性（SQL Characteristics）：针对主要使用特定功能（如JOIN操作、子查询或聚合函数）的SQL查询进行分类，评估系统处理不同SQL功能的能力。
- 数据领域（Data Domains）：探索系统在不同数据领域（如金融、医疗保健和零售）的性能，评估领域特定的能力和潜在限制。
- 查询方差测试（Query Variance Testing）：评估nl2sql系统在处理自然语言查询变化时的稳健性和灵活性。
4. 评估器（Evaluator）
利用日志数据自动生成定量评估，并以易于理解的表格或排行榜形式呈现。还提供可视化工具和仪表板进行交互式分析，方便用户比较不同维度的nl2sql解决方案。
5. 评估指标（Evaluation Metrics）
采用了一系列广泛接受的指标，包括执行准确率（Execution Accuracy，EX）和精确匹配准确率（Exact Match Accuracy，EM）来评估生成的 SQL 查询的有效性，使用有效效率得分（Valid Efficiency Score，VES）来衡量生成有效 SQL 查询的效率。此外，还提出了查询方差测试（Query Variance Testing）这一新指标，用于评估模型对不同形式的自然语言查询的适应能力。
6. 执行器和日志（Executor and Logs）
用户可以定制 nl2sq l模型的评估工作流程，设置超参数和指标等参数。测试床会自动在基准数据集和自定义子集上运行模型，并记录所有结果，这些日志为模型分析提供了详细的见解。

（二）实验设置与结果分析

1. **实验设置** 使用 Spider 和 BIRD 数据集的开发集作为实验数据集，包含1034和1534个（nl，sql）样本。评估了 13 种基于 LLM 和 7 种基于 PLM 的 nl2sql 方法，比较了不同方法在准确性、效率等方面的性能。 2. **准确性实验结果**![](https://img-blog.csdnimg.cn/img_convert/437c8b0797bb7f10f70f58135923a3d6.png)![](https://img-blog.csdnimg.cn/img_convert/fcab03e570607c57a0efcbe4896fe2dc.png) - **准确性与SQL复杂性** 从表3和表4可以看出，在不同难度的SQL子集上，基于LLM的方法在执行准确率（EX）指标上超过基于PLM的方法，而基于PLM的方法在精确匹配准确率（EM）指标上总体表现更好。这表明微调是提高性能的重要策略，基于LLM的方法微调后在EX指标上表现最佳，基于PLM的方法在EM指标上表现最佳。 - **准确性与SQL特性**![](https://img-blog.csdnimg.cn/img_convert/c509ecf946e082d75c5c8c2fa0736283.png) - ![](https://img-blog.csdnimg.cn/img_convert/c4a431531310095c017ec41c3803db23.png) * **子查询（Subquery）**：如图5、图6和图7所示，所有方法在处理子查询时表现最差，但基于LLM的方法在有子查询的场景中总体上优于基于PLM的方法，尤其是使用 GPT-4 的方法表现更好，这表明模型的内在推理能力对处理子查询至关重要。 * **逻辑连接器（Logical Connector）**：在需要逻辑连接器的场景中，基于LLM 的方法优于基于PLM的方法。 * **JOIN操作**：在涉及JOIN操作的场景中，基于LLM的方法也表现出优势，将NatSQL作为中间表示可以降低预测JOIN操作的复杂性并可能提高模型性能。 * **ORDER BY**：在有ORDER BY子句的场景中，基于PLM和LLM的方法在不同数据集上的性能有所不同，一般来说基于LLM的方法具有更强的泛化能力。 - **查询方差测试**：![](https://img-blog.csdnimg.cn/img_convert/1fcdab48a5bd623eb44578beea556065.png)从图8可以看出，在查询方差测试（QVT）指标上，基于LLM和基于PLM的方法没有明显的胜者，但微调后的LLM通常比提示的LLM具有更高的QVT，这可能是由于微调后模型输入与特定数据分布对齐，减少了自然语言变化对性能的影响。 - **数据库领域适应性**：![](https://img-blog.csdnimg.cn/img_convert/06ceee93625ea1c43fca79e2eff03a67.png)如图9所示，不同的 nl2sql 方法对不同领域表现出不同的偏向，基于LLM和基于PLM的方法之间没有明显的胜者。但微调后的方法在有更多训练数据库的领域表现更好，而提示的方法在训练数据库较少的领域表现出色，这表明微调过程中的领域内数据对特定领域的模型性能至关重要。 3. **效率实验结果** - **基于LLM的方法的经济性**：从表5可以看出，基于提示的LLM方法中，调用GPT-3.5-turbo的方法在执行准确率与平均成本的比率上更高，具有更高的成本效益。虽然 DAILSQL（SC）在执行准确率上有所提高，但成本也增加，降低了成本效益。 - **基于PLM的方法的效率**：从表6可以看出，随着模型大小的增加，GPU内存和延迟也会增加。不同的基于PLM的方法在执行准确率、延迟和GPU内存使用方面表现不同，模型选择应考虑延迟和硬件资源。

三、nl2sql设计空间探索与SuperSQL模型

（一）设计空间探索

1. **预处理（Pre - Processing）** 包括模式链接和数据库内容模块。模式链接将自然语言查询引用映射到数据库模式元素，增强跨领域通用性和复杂查询生成；数据库内容模块将查询条件与数据库内容对齐。 2. **提示策略（Prompting Strategy）** 分为 zero-shot和 few-shot策略。PLM-based方法通常使用 zero-shot，而 LLM-based 方法则有所不同，如C3SQL采用 zero-shot，DAILSQL和DINSQL使用 few-shot。 3. **SQL生成策略（SQL Generation Strategy）** 包括多步、解码策略和中间表示三个关键方面。不同的方法采用不同的策略，如PLM - based的RESDSQL采用“sql skeleton-sql”的多步策略，LLM-based的 DINSQL 采用“Subquery-sql”的多步策略；PLM-based 的 PICARD 采用强制 SQL 语法合规的解码策略，而 LLM-based 方法缺乏这种解码级别的限制；一些方法采用 NatSQL 作为中间表示来解决自然语言到 SQL 翻译的不匹配问题。 4. **后处理（Post - Processing）** 包括自我纠正、自我一致性、执行引导的SQL选择器和 N-best重排器等策略。

（二）NL2SQL360 - AAS 算法与 SuperSQL 模型

1. **NL2SQL360 - AAS 算法** 受到神经架构搜索（NAS）算法的启发，在 NL2SQL360 框架内设计了 nl2sql 自动化架构搜索算法（NL2SQL360 - AAS）。该算法包括初始化、个体选择、nl2sql 模块交换和 nl2sql 模块突变四个主要步骤，旨在自动探索 nl2sql 解决方案的预定义设计空间，以找到更好的 nl2sql 个体。 2. **SuperSQL模型** 通过 NL2SQL360 - AAS 算法在 Spider 开发集上搜索得到的 SuperSQL 模型，其组成如下： - **预处理**：采用 RESDSQL 的模式链接和 BRIDGE v2 的数据库内容模块。 - **提示**：使用 DAILSQL的 Few-shot模块按相似性选择上下文示例。 - **SQL生成**：采用OpenAI的贪婪解码策略，不使用多步或NatSQL。 - **后处理**：采用DAILSQL的自我一致性策略。 SuperSQL在Spider和BIRD测试集上分别取得了87.0%和62.66%的执行准确率，在执行准确率、效率和经济性等方面均表现出色，优于其设计空间内的所有基线模型。

四、研究机会与未来方向

（一）提高nl2sql方法的可信度

1. **处理模糊的自然语言查询** 可以探索查询重写器自动优化自然语言查询，以及查询自动完成帮助用户制定查询的策略。 2. **解释nl2sql解决方案** 开发nl2sql调试器检测错误的SQL查询，以及SQL和查询结果解释方法帮助用户评估结果是否符合要求。

（二）开发具有成本效益的nl2sql方法

基于LLM的nl2sql方法在令牌消耗方面成本较高，探索模块化nl2sql解决方案和多智能体框架，结合LLM优化准确性和效率是未来的研究方向。

（三）自适应训练数据生成

nl2sql方法的有效性很大程度上取决于训练数据的质量和覆盖范围，动态生成（nl，sql）对使用模型评估反馈是一个有前途的研究方向，可以解决领域适应问题并确保训练数据的多样性和高质量。

五、结论

本文提出了NL2SQL360评估框架，从多个角度对nl2sql方法进行了评估和分析。通过实验研究得出了一系列关于nl2sql方法性能的新发现，并利用NL2SQL360探索了nl2sql解决方案的设计空间，自动搜索得到了SuperSQL模型。SuperSQL模型在不同的数据集和测试指标上表现出色，为nl2sql任务提供了一种有效的解决方案。同时，本文还指出了未来nl2sql研究的几个方向，包括提高方法的可信度、开发成本效益高的方法和自适应训练数据生成等。这些研究成果为nl2sql领域的进一步发展提供了重要的参考和指导。

:::info
论文地址：https://arxiv.org/pdf/2406.01265

The Dawn of Natural Language to SQL: Are We Fully Ready?

代码地址：https://github.com/HKUSTDial/NL2SQL360

原文链接：https://mp.weixin.qq.com/s/BCxFZ2EV1xh-VlYYyR1FgQ

:::

希望这篇文章能让您对论文的核心内容有更深入的了解，如果您有任何问题或建议，欢迎在评论区留言。

原文地址：https://blog.csdn.net/u014021753/article/details/142763195

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：attain和obtain区别
下一篇：java关键字&标识符

GE VMIVME-5588 高速反射存储器
需要注意的是，数据开始在先进先出设备中累积的唯一途径是数据进入节点的速度超过 29.5 Mbyte/s，冗余模式下超过 14.8 Mbyte/s。然后与来自 VME 总线的访问进行仲裁，并将数据写入节
阅读更多2024-10-09
Rethinking the Localization in Weakly Supervised ObjectLocalization
弱监督对象定位中的再思考
阅读更多2024-10-09
头歌实践教学平台大数据编程实训答案（三）
MapReduce是一种可用于数据处理的编程模型，我们现在设想一个场景，你接到一个任务，任务是：挖掘分析我国气象中心近年来的数据日志，该数据日志大小有3T,让你分析计算出每一年的最高气温，如果你现在只
阅读更多2024-10-09
Android 解锁工具的主题：适用于所有安卓手机的 5 款安卓解锁工具
在当今互联互通的世界里，移动设备的安全至关重要。然而，用户可能会因为忘记密码、屏幕损坏或其他不可预见的问题而无法使用 Android 设备。为了满足这一需求，出现了各种 Android解锁工具，它们提
阅读更多2024-10-09
八款主流图纸加密软件强力推荐｜2024年图纸加密软件最佳选择！
安秉网盾是一款专为企业设计的信息安全管理工具，通过透明加密技术确保设计图纸、源代码等敏感文件在创建、编辑和保存过程中的自动加密。在2024年，随着设计图纸的数字化趋势愈加明显，企业和个人设计师必须选用
阅读更多2024-10-09
The legacy JS API is deprecated and will be removed in Dart Sass 2.0
The legacy JS API is deprecated and will be removed in Dart Sass 2.0警告修复
阅读更多2024-10-09
政府购买服务指导性目录，集中采购目录，政府采购品目分类目录，有什么区别与联系？
政府购买服务指导性目录，集中采购目录，政府采购品目分类目录，有什么区别与联系
阅读更多2024-10-09
Cpp::STL—list类的模拟实现(上)(13)
注意本篇难度偏高，其主要体现在迭代器类的实现！什么，list类的迭代器还要单独封装成类！？还真是，毕竟它的元素存储在物理意义上不是连续的正文开始！本篇暂时就先介绍两个类，剩下最后一个list类我们下篇
阅读更多2024-10-09
车辆重识别（2021NIPS无分类器扩散指南）论文阅读2024/10/08
那么对于随机采样的这一时间步，对于这一时间步的网络优化也是参数更新一次就再随机采样下一个时间步吗？还是前一个随机采样的时间步的网络参数彻底优化完全，再对下一随机的时间步进行处理？λ是给出的参数，就像去
阅读更多2024-10-09
Java | Leetcode Java题解之第464题我能赢吗
Java | Leetcode Java题解之第464题我能赢吗
阅读更多2024-10-09