论文《Text2SQL is Not Enough: Unifying AI and Databases with TAG》

🕗 发布于 2024-10-18 11:38 text2sql

TAG出自2024年8月的论文《Text2SQL is Not Enough: Unifying AI and Databases with TAG》(github)，它是一种结合了text2sql和RAG的用LLM来回答基于数据库的自然语言问题。

在这里插入图片描述

论文作者认为现实中用户的业务问题有两种重要的类型：1. 要求世界知识；2. 要求语义理解能力。而现有的text2sql或者RAG方法对于这两类问题的处理都不是很好，于是提出了如论文图1所示意的TAG框架，TAG以自然语言请求R作为输入，以基于数据源的自然语言A作为回答，它定义了三个关键步骤。

Query Synthesis (syn)：将用户的自然语言请求R转换成一个可执行的数据库查询语句Q。个人理解这一步即通常的text2sql要做的事情。
Query Execution (exec)：在数据库系统上执行查询Q并得到相关数据T。
Answer Generation (gen)：让LLM基于自然语言请求R和数据T生成回答；这一步就对应着RAG框架里的生成步骤。在图1的例子里，数据T被编码成了字符串后与问题一起作为LLM的输入。这一步会利用模型的语义推理能力来得到答案。

在提出TAG框架后，论文作者基于BIRD数据集构建了一个测试基准。构建时有两种修改方法：1. 将BIRD原来的问题修改需要世界知识，比如要求查询Bay Area的学校；2. 将问题修改为需要推理能力，比如获取数据集里的top 3讽刺评论。评估这些修改后的问题依赖于人工标注的金标准。基准一种包括80个修改后的问题，40个要求世界知识，40个要求推理能力，match-based, comparison, ranking, aggregation这四种查询类型均匀分布。

最后，论文基于TAG框架做了试验，结果如下表所示。看完这部分后对试验有两个疑问：1.选择的text2sql的基准不是在BIRD上排名靠前的方法，就是一个很简单的prompt LLM的方法。2. 为什么TAG的实现是Hand-written TAG呢？

在这里插入图片描述

原文地址：https://blog.csdn.net/beingstrong/article/details/143028085

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：非常漂亮html公告弹窗代码
下一篇：Floyd_可以根据Dijikstra来写

【Vue.js设计与实现】第三篇第10章：渲染器-双端 Diff 算法-阅读笔记
本章我们介绍了双端 Diff 算法的原理及其优势。双端 Diff 算法指的是，在新旧两组子节点的四个端点之间分别进行比较，并试图找到可复用的节点。相比简单 Diff 算法，双端 Diff 算法的优势在
阅读更多2024-10-19
Flutter Scaffold组件
想象一下，你正在建造一座房子，每个房间都代表着应用用户界面的不同部分。在Flutter中，这些房间被称为widget。就像在房子里，每个房间都有不同的家具和装饰一样，Flutter widgets是构
阅读更多2024-10-19
rootless模式下istio ambient鉴权策略
在rootless模式下的kind k8s集群，兼容istio ambient鉴权策略设置。
阅读更多2024-10-19
flutter assets配置加载本地图片报错
需要注意的是，目录批量指定并不递归，只有该目录下的文件可以被包括，如果有子目录，需要单独声明子目录下的文件‌。目录下的文件都将被包含进来，而不需要逐个列出每个文件‌。这里着重强调的最新版的flutte
阅读更多2024-10-19
预训练模型通过 prompt（提示）生成的“软标签”是什么
软标签（Soft Label）通常指的是模型预测结果中输出的概率分布。例如，如果一个分类任务中有3个类别，模型的输出可能是：这意味着模型认为输入数据属于类别1的概率是70%，类别2是20%，类别3是1
阅读更多2024-10-19
OpenAI Prompt generation - 生成和优化Prompt的Prompt
OpenAI Prompt generation - 生成和优化Prompt的Prompt
阅读更多2024-10-19
【4.10】图搜索算法-BFS和DFS解电话号码的字母组合
给定一个仅包含数字2-9的字符串，返回所有它能表示的字母组合。答案可以按返回。给出数字到字母的映射如下（与电话按键相同）。注意 1 不对应任何字母。
阅读更多2024-10-19
大数据实验3： HDFS基础编程
，否则返回文件一行的文本。在 Hadoop 分布式文件系统（HDFS）中的作用是将本地文件系统中的文件 localfile 上传到 HDFS 上的目录 hdfsdir1 中。10、hdfs dfs -
阅读更多2024-10-19
从算盘到云计算：计算机发展的壮丽历程
早期计算器的出现对计算机发展起到了重要作用。从算盘到机械计算器，再到现代计算机的诞生，计算能力不断提升，速度和通用性也得到了显著提升。个人电脑和移动计算机成为生活和工作中不可或缺的工具，云计算使计算机
阅读更多2024-10-19
神经网络构建与训练深度学习模型全过程（PyTorch & TensorFlow）
神经网络（Neural Network）是一种模拟人脑神经元的数学模型，其目的是通过模拟神经元之间的连接与传递信息的方式，来完成复杂的数据处理任务。神经网络由若干层神经元组成，通常分为输入层、隐藏层和
阅读更多2024-10-19

论文《Text2SQL is Not Enough: Unifying AI and Databases with TAG》

相关文章