【AI论文精读4】RAG论文综述2（微软亚研院 2409）P2-问题定义

🕗 发布于 2024-10-16 05:57 人工智能 机器学习 深度学习 自然语言处理 RAG

【AI论文解读】【AI知识点】【AI小项目】【AI战略思考】

P1，P3，P4，P5，P6

二、问题定义

数据增强的大语言模型（LLM）应用可以采取多种形式，从常见的基于领域特定数据的问答机器人，到复杂数据管道中的语义处理操作，甚至是处理多代理系统中特定步骤的代理。然而，通常来说，数据增强的LLM应用可以表述为以下形式：

$Q^{D} \rightarrow A$

其中， $Q$ 、 $A$ 和 $D$ 分别代表用户的输入（查询）、期望的回答（答案）以及给定的数据。应用的任务 $f$ 是基于 $D$ 建立从 $Q$ 到 $A$ 的映射关系。

与仅依赖现有知识的独立LLM系统相比，数据增强的LLM应用的特点是依赖外部数据 $D$ 来准确处理所提出的查询 $Q$ 。外部数据 $D$ 的引入可以显著增强LLM的能力，使其能够利用当前的领域特定知识并理解专家的推理。查询的复杂性可以根据其使用外部数据的广度和方式进行分层，反映了应对查询时所需的深度和参与度。

2.1 查询分层（Stratification of Queries）

在数据增强的大语言模型（LLM）应用中，查询可以根据其复杂性和所需的数据交互深度进行分层。这种分层有助于理解LLM在生成准确和相关的响应时必须执行的不同认知处理水平。从简单的事实检索到对隐性知识的细致解读，每个层次都代表着LLM处理任务复杂程度的逐步提升。以下是这些层次的详细说明：

1. 一级查询：显性事实（Explicit Facts）

定义：这些查询涉及在给定数据中直接存在的显性事实，而不需要任何额外的推理。这是最简单的查询形式，模型的主要任务是定位并提取相关信息。
现实示例：“2024年夏季奥运会将在哪里举办？”。这一问题的答案直接包含在外部数据中，只需检索出答案即可（例如，奥运会举办地为巴黎）。

2. 二级查询：隐性事实（Implicit Facts）

定义：这些查询要求模型推断数据中不明显的事实，可能需要一定的常识推理或基本的逻辑推导。所需信息可能分布在多个片段中，模型需要将它们结合起来作出简单的推论。
现实示例：“堪培拉所在的国家现在的多数党是什么？”。这一问题需要将堪培拉位于澳大利亚的事实与澳大利亚现执政党信息相结合来回答。

3. 三级查询：可解释的推理（Interpretable Rationales）

定义：这类查询不仅需要掌握事实内容，还要求模型理解并应用数据上下文中特定领域的推理。通常，这些推理是外部资源提供的领域知识，在模型的预训练阶段可能没有遇到过。
现实示例：在制药领域，LLM需要解读FDA指南来评估特定药物申请是否符合监管要求。同样，在客户支持场景中，LLM必须理解预定义的工作流程，以有效处理用户查询。在医疗领域，许多诊断手册提供了权威的标准化诊断标准，例如急性胸痛的管理指南【14】。通过有效遵循这些已有的外部推理，可以开发出一个用于管理胸痛的专业LLM专家系统。

4. 四级查询：隐藏的推理（Hidden Rationales）

定义：这一类查询涉及更具挑战性的领域，在这里推理过程没有明确记录，但必须通过从外部数据中观察到的模式和结果进行推断。隐性推理不仅指隐含的推理链和逻辑关系，还包括识别和提取每个具体查询所需的外部推理的复杂任务。
现实示例：在IT运营场景中，模型可能需要从过去解决的事件中推断出成功的隐性策略。在软件开发中，模型可能需要从调试历史中提取隐含的原则，尽管每次调试决策的逐步推理过程可能没有系统记录。

2.2 四种查询的比喻解释

这是我自己的补充解释，不是论文中的内容，只是为了更好的理解

下面通过一个找书的例子来解释这四种查询的区别：

1. 一级查询：显性事实（Explicit Facts）

比喻：你走进图书馆，直接问图书管理员：“《哈利·波特》的作者是谁？”
解释：管理员很快查找资料，告诉你：“J.K.罗琳。”这是显性事实，答案就直接在数据里，不需要任何推理。

2. 二级查询：隐性事实（Implicit Facts）

比喻：你问图书管理员：“《哈利·波特》的作者是英国人吗？”
解释：管理员需要知道《哈利·波特》的作者是J.K.罗琳，然后再推断出J.K.罗琳是英国人。这里需要一些基本推理，但信息可以通过多个步骤找到。

3. 三级查询：可解释的推理（Interpretable Rationales）

比喻：你问图书管理员：“这本书符合儿童书籍的出版标准吗？”
解释：管理员需要根据儿童书籍的出版标准来判断《哈利·波特》是否符合规定。这里不仅仅是查找事实，管理员还需要理解和应用出版标准这一领域特定的专业规则和逻辑（这些规则和逻辑是明确的和已知的）。

4. 四级查询：隐藏的推理（Hidden Rationales）

比喻：你问图书管理员：“如何出版一本像《哈利·波特》一样畅销的书？”
解释：这个问题没有一个明确的答案。管理员需要从过去的出版历史中，结合《哈利·波特》的成功经验，推测和总结出畅销书出版的策略。这需要从大量的历史数据中挖掘出隐含的模式和规律（不明确的或未知的）。

总结：

一级显性事实是直接从数据中找答案，不需要推理；
二级隐性事实需要一些简单的推理，将多个信息点结合起来得出结论；
三级可解释推理需要掌握并应用领域特定的规则和逻辑；
四级隐藏推理则需要从过往经验中提取隐含的智慧和策略。

2.3 图示与数据集分类

图1和图2展示了这四种查询的图示，表1则根据这些标准分类了常见的事实查询数据集。这三张图表都很好理解，而且没啥有用的信息，稍微看一眼就好了，就不解释了。

图1

在这里插入图片描述

图2

在这里插入图片描述

表1

在这里插入图片描述

2.4 查询分层的意义

每个层次都带来了独特的挑战，因此需要量身定制的解决方案来有效应对它们。在接下来的章节中，我们将深入探讨这些层次的复杂性，探索使LLM能够在数据增强应用中驾驭这些不同查询类型的具体策略和方法。这种分层不仅有助于厘清现有LLM的能力，还能帮助发现未来改进的空间和潜在的发展方向。

P1和P2很简单，后面就开始丰富和复杂起来了，未完待续。。。

原文地址：https://blog.csdn.net/weixin_43221845/article/details/142855085

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：【Vue】Vue2（4）
下一篇：2024年科技赋能教育，AI辅导引领新趋势

如何开发一款多商户商城系统小程序
世面上的小程序软件有成品，也有定制的，少不了的就是会员，数据分析，二级分销，分站等后台。辅助功能：对接电商，批量导入，寄件码，快递查询，停发查询，查件码，短信服务，耗材购买，分单系统，业务员，补充快递
阅读更多2024-10-16
Python案例 | 测试网络的下载速度上传速度和 ping 延迟
使用了 speedtest 库来测试网络的下载速度上传速度和 ping 延迟。注意，这里需要先卸载speedtest，再安装speedtest-cli。
阅读更多2024-10-16
字面量常量（Literal Constant）
在编程和计算机架构中，字面量常量（Literal Constant）是指在程序代码中直接给出的固定值，这些值在编译时就已经确定，并且在程序执行过程中不会改变。在GPU的指令集中，支持字面量常量可以使得
阅读更多2024-10-16
编程已成大学生必备技能：新手如何高效入门？
编程是一项需要持续投入和耐心的技能。作为一名大学新生，选择适合自己的编程语言，制定切实可行的学习计划，并避免常见的学习陷阱，能够帮助你在编程学习的道路上走得更远。记住，编程学习是一个不断进步的过程，遇
阅读更多2024-10-16
【电路笔记】-运算放大器多谐振荡器
本文将重点介绍通常称为多谐振荡器的配置，特别是基于运算放大器的电路。事实上，多谐振荡器也可以通过双极晶体管或计时器集成电路（例如 NE555）来设计，但我们将重点关注 OPAMP 的实现。
阅读更多2024-10-16
Spring事务的1道面试题
每次聊起Spring事务，好像很熟悉，又好像很陌生。本篇通过一道面试题和一些实践，来拆解几个Spring事务的常见坑点。
阅读更多2024-10-16
一站式管理神器，基于PostgreSQL数据库，备受瞩目！
它以简洁的界面设计、强大的功能集成，成为众多企业提升效率的选择。
阅读更多2024-10-16
MySQL-多表查询
MySQL-多表查询的相关知识
阅读更多2024-10-16
Nacos安装指南
开发阶段采用单机安装即可。
阅读更多2024-10-16
Oracle AI Vector Search
Oracle AI Vector Search 是 Oracle Database 23ai 中引入的一项新技术，它允许用户在数据库中直接存储和高效查询向量数据。这项技术旨在简化应用程序的开发，并且支
阅读更多2024-10-16

【AI论文精读4】RAG论文综述2（微软亚研院 2409）P2-问题定义

二、问题定义

2.1 查询分层（Stratification of Queries）

1. 一级查询：显性事实（Explicit Facts）

2. 二级查询：隐性事实（Implicit Facts）

3. 三级查询：可解释的推理（Interpretable Rationales）

4. 四级查询：隐藏的推理（Hidden Rationales）

2.2 四种查询的比喻解释

1. 一级查询：显性事实（Explicit Facts）

2. 二级查询：隐性事实（Implicit Facts）

3. 三级查询：可解释的推理（Interpretable Rationales）

4. 四级查询：隐藏的推理（Hidden Rationales）

总结：

2.3 图示与数据集分类

2.4 查询分层的意义

相关文章