Prompting LLMs to Solve Complex Tasks: A Review

🕗 发布于 2024-11-25 14:09 语言模型 chatgpt langchain 人工智能 自然语言处理

文章目录

题目

促使 LLM 解决复杂任务：综述
在这里插入图片描述

论文地址：https://www.intjit.org/cms/journal/volume/29/1/291_3.pdf

简介

大型语言模型 (LLM) 的最新趋势显而易见，这体现在大型科技公司的投资以及媒体和在线社区对 LLM 的广泛讨论和迷恋中。OpenAI 的 GPT 系列，尤其是 GPT-3 和 GPT-4 [OpenAI, 2023]，因其先进的文本生成功能而成为头条新闻。微软等大公司已将 LLM 集成到其产品中，增强了 Bing 和 Office Suite 等应用程序的用户体验。我们还可以看到专注于 LLM 的学者人数激增，凸显了人们对该领域日益增长的兴趣 [Touvron et al, 2023a, Touvron et al, 2023b]。此外，媒体和在线社区对 LLM 的广泛讨论和迷恋凸显了它们的影响力以及公众对人工智能进步的兴趣。

随着 LLM 如此受欢迎，并且 LLM 在各种下游任务中展示了其能力，如何利用 LLM 来解决复杂任务成为一个重要问题。其中，提示工程是与 LLM 互动的最直接、最有效的方式 [Liu et al, 2023b, Qiao et al, 2022]。通过制作精确清晰的提示，用户可以向 LLM 提供更好的指示，确保更准确、更符合语境的答案。这种做法不仅有助于控制 LLM 输出的语气和风格，使其适合不同的目的和受众，而且还减少了歧义，从而实现更直接、更高效的交互。因此，提示工程是充分利用 LLM 潜力的关键工具，确保他们的回答尽可能有益和相关。

与 LLM 合作时，思路链提示 (CoT) [Wei et al, 2022] 涉及将复杂问题分解为一系列逻辑步骤，类似于人类思考问题的方式。这种方法很重要，因为它增强了 LLM 处理复杂多步骤推理任务的能力。例如，在解决数学问题时，模型首先识别相关信息，然后依次应用数学运算，清晰地阐明每个步骤，然后得出最终答案。同样，在关于因果关系的推理任务中为了达到这一目的，该模型在得出结论之前会系统地评估场景的各个方面。通过这样做，CoT 不仅使模型的推理过程更加透明，而且显著提高了其解决问题的准确性。

受到 CoT 简单而强大的启发，我们希望进一步深入研究将任务分解为提示中的子任务的方法，以使 LLM 能够解决复杂任务。在本文中，我们首先回顾了现有的方法，这些方法也侧重于提示 LLM 解决问题。然后，我们提出了进一步改进的可能方向。我们希望这项调查可以引导感兴趣的研究人员对复杂任务进行快速工程设计，并提高对该领域进一步建设的兴趣。第 2 节将总结当前的论文，这些论文将复杂任务分解为提示中的子任务，以指导 LLM 解决问题。讨论了两种类型的方法及其区别，即迭代分解和计划然后执行分解。第 3 节讨论了当前方法的缺点，以及分层分解如何潜在地促使 LLM 更好地解决复杂任务。

任务分解

将复杂任务分解为简单任务特别有用，因为如果不考虑推理步骤就无法立即解决该任务。在本节中，我们介绍了分解复杂任务的方法和有助于提高分解性能的辅助技术。迭代分解生成一个简单的子任务，执行操作以完成子任务，然后利用先前结果的知识重复此过程。在 [Press et al, 2022] 中，作者通过实证表明，即使 LLM 知道复杂问题所有所需子问题的真实答案，当要求它们直接回答复杂问题时，LLM 也常常是错误的。这一发现表明了将复杂任务分解为简单子任务对 LLM 的重要性。

思路链提示 [Wei et al, 2022] 可以被认为是第一个尝试将任务分解为子任务序列的工作。通过向 LLM 展示一系列中间自然语言推理步骤，这些步骤最终导致提示中的输出，LLM 可以自然地模仿类似人类的问题解决过程。在这里，中间推理步骤可以被视为子任务，因为它们都是回答问题所必需的，并且它们按顺序连接以形成导致问题最终解决方案的子任务序列。研究人员甚至发现，只需在提示中添加“让我们一步一步思考。”就可以引导 LLM 执行思路链分解 [Kojima et al, 2022]。上述两项工作隐含地遵循迭代分解，因为 LLM 以自回归的方式生成 token，可以表述为：在这里插入图片描述

我们可以看到，在生成 xt 时它是一个条件概率，这意味着它们可以根据之前的内容决定下一个子任务。还有一些方法明确指示 LLM 采用迭代分解策略。 DecomP [Khot et al, 2022] 和 Successive Prompting [Dua et al, 2022] 代表了两种当代技术，它们采用重复提问的方法来收集涉及问答任务的背景信息。模型回答的每个子问题都是一个要完成的子任务。与可能在单个输出中顺序生成子问题的 CoT 相比，这两种方法明确指导 LLM 在此过程中生成后续问题。实证结果表明，明确指示 LLM 分解复杂任务优于依赖 LLM 自己进行的隐式分解。

单步分解，与迭代分解不同，单步分解方法仅使用一个提示将任务分解为较小的任务。例如，[Zhou et al, 2022] 中提到的从最少到最多提示法，对于 LLM 只需要两个提示：一个用于制定将主要任务分解为较小步骤的计划，另一个用于执行这些步骤。[Wang et al, 2023a] 中描述的计划和解决提示技术通过将计划和执行阶段合并为一个响应来提高从最少到最多提示的效率。DEPS [Wang et al, 2023b] 和 GITM [Zhu et al, 2023] 是针对游戏 Minecraft 的专门分解策略，Minecraft 是一款沙盒游戏，玩家可以在其中创建各种物品和工具。在这个游戏中，收集基本材料被视为构建所需物品所需的一系列子任务。 DEPS 制定了获取所需物品的顺序计划，而 GITM 则提示 LLM 将任务分解为子任务树结构。

与 DecomP 和连续提示等方法相比，单步分解方法更省时，因为它减少了 LLM 所需的提示数量。尽管如此，DecomP 和连续提示提供了更大的适应性，允许根据前一个子任务的结果定制下一个子任务，而一次性分解方法中的计划保持不变。单步分解更适合子任务限制在相对较窄范围内的任务。例如，在 Minecraft 中，任务和先决条件之间的复杂性和相互联系比知识密集型问答更直接。这种简单性使通过一次性分解生成的计划具有更高的准确性。最终，在效率和精度之间进行选择取决于手头任务的具体性质。

外部分解，上述类别都依赖于 LLM 的知识将任务分解为更小的子任务。然而，正如文献所指出的那样，它们面临着幻觉问题的挑战 [Ji et al, 2023]。有时，这些方法会生成看似合理但缺乏坚实现实基础的子任务。为了确保分解过程的精确性，LLM+P [Liu et al, 2023a] 和 SayPlan [Rana et al, 2023] 采用了不同的方法，整合了经典规划技术。他们使用 LLM 将用自然语言表达的任务转换为经典规划器使用的领域特定语言。这使经典规划器能够更有效地处理任务。规划器产生的结果随后由 LLM 翻译回自然语言。

子任务预定义，从受限池中选择潜在子任务具有制定更精确、更高效的子任务序列的优势。这种方法有助于防止 LLM 因不相关或错误的子任务而偏离正轨。PEARL [Sun et al, 2023] 是专门为回答冗长文档中的问题而定制的。它采用了一组预定义的子任务，例如“定位 A 的定义”、“比较 A 和 B”和“总结 A”，LLM 可以从中选择有价值的子任务并将其组织成一个连贯的计划。同样，ProCoT [Deng et al, 2023] 建立了预定义的子任务，包括查询澄清、主题转换和谈判策略，专为对话系统设计。DecomP [Khot et al, 2022] 采用了不同的方法，从一系列子任务函数（如用于第 k 个字母连接的“split”和“merge”）中选择子任务。该方法在多种任务中进行了评估，包括涉及广泛上下文的任务、开放域问答和符号推理。同时，SayPlan [Rana et al, 2023] 是针对机器人规划任务量身定制的。给定任务指令，它使用语义搜索来识别整个 3D 场景图中的相关子图，作为规划环境。随后，LLM 仅根据此识别的子图制定计划。

未来方向

当前提示大型语言模型 (LLM) 的方法通常涉及将最终任务拆分为顺序子任务或制定计划以同时执行所有步骤。但是，在处理复杂任务时，这种顺序方法可能会受到限制。该方法可能无法充分解决每个子任务的复杂性，尤其是在每个子任务本身都很复杂且多方面的情况下。因此，由于对这些复杂组件的分解不足，模型可能难以准确完成最终任务。相比之下，任务的层次分解（将每个子任务进一步分解为更小、更易于管理的部分）提供了更强大的解决方案。这种方法可以更深入、更详细地探索任务的每个方面，确保彻底理解和解决每个元素。例如，在复杂的问题解决场景中，子任务可能涉及多层推理或计算，每层都需要自己的特定方法。层次分解将使模型能够单独处理这些层，确保更全面、更准确地完成最终任务。这种方法不仅增强了 LLM 的解决问题能力，而且更紧密地反映了人类的认知过程，从而产生了合乎逻辑、结构良好且更可靠的解决方案。

结论

本综述批判性地分析了各种分解方法在促使 LLM 解决复杂任务中的应用。我们已经看到，迭代、单步、外部和预定义子任务分解各自提供了独特的优点和局限性。我们的分析表明，虽然当前的方法可以提高 LLM 的解决问题能力，但仍有很大的改进空间。未来的研究应侧重于开发更先进的分层分解策略，以更好地模仿人类的认知过程并提供更细致入微、更可靠的解决方案。

原文地址：https://blog.csdn.net/weixin_43961909/article/details/143998976

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：C#里怎么样快速使用LINQ实现查询？
下一篇：springboot/ssm网购平台管理系统Java在线购物商城管理平台web电商源码

云原生革命：构建未来应用的无限可能
云原生不仅仅是技术上的一次升级，它代表了一种全新的思维方式，鼓励我们以更加开放、协作的态度去构建和管理现代应用。随着越来越多的组织认识到其价值，云原生无疑将成为推动数字化转型的关键力量。现在，就是拥抱
阅读更多2024-11-26
AI+云环境开发上线项目全流程（sealos）
AI+云环境开发上线项目全流程（sealos）
阅读更多2024-11-26
stm32内部高速晶振打开作为主时钟
首先建议你别这么干，因为内部晶振特别容易受温度等外界影响，很容易卡死或堵死程序。我是因为没画外部晶振电路，所以只能开内部晶振来作为时钟。把下面的代码换掉源文件里的时钟源配置。适用于stm32f103系
阅读更多2024-11-26
等保测评讲解：安全管理中心
此外，安全管理中心还需要具备集中管控的能力。同时，安全管理中心还需要能够建立一条安全的信息传输路径，对网络中的安全设备或安全组件进行管理。在安全管理中，安全管理员需要对系统中的安全策略进行配置，包括安
阅读更多2024-11-26
网络安全-安全散列函数，信息摘要SHA-1，MD5原理
单向散列函数或者安全散列函数之所以重要，不仅在于消息认证(消息摘要。数据指纹)。还有数字签名（加强版的消息认证）和验证数据的完整性。常见的单向散列函数有MD5和SHA。
阅读更多2024-11-26
一文详解安全分析方法STPA：以自动紧急制动系统（AEB）为例
根据STPA的最初提出者、麻省理工大学的 Nancy Leveson 教授在2003年发表的论文，组件之间的相互作用导致的复杂系统崩溃、与软件相关的崩溃、高度复杂的人为决策以及系统适应性或事故随时间的
阅读更多2024-11-26
什么是安全密钥，它是如何工作的
安全密钥是一种物理设备，通常类似于USB闪存驱动器或密钥卡，用于验证对在线帐户和系统的访问权限。由于其物理性质，这些密钥被认为是双因素身份验证（2FA）和多因素身份验证（MFA）中最安全的形式之一，这
阅读更多2024-11-26
网络安全基础之网络协议与安全威胁
数据包主要由“目的IP地址”、“源IP地址”、“净载数据”等部分构成，包括包头和包体，包头是固定长度，包体的长度不定，各字段长度固定，双方的请求数据包和应答数据包的包头结构是一致的，不同的是包体的定义
阅读更多2024-11-26
【xxl-job】执行器文件存储
方法打印的日志，页面查询时根据执行器IP找到对应的执行器，读取文件进行查询，日志文件位于 ${logPath} 下，根据任务日志ID区分单个文件。常规部署没啥问题，但如果是公司内一些通用的容器部署方式
阅读更多2024-11-26
AIGC实践-使用Amazon Bedrock的SDXL模型进行文生图
AmazonBedrock是AmazonWebServices(AWS)提供的一种生成式AI服务。通过Bedrock，用户可以方便地使用多种基础模型（FoundationModels），包括OpenA
阅读更多2024-11-26

Prompting LLMs to Solve Complex Tasks: A Review

文章目录

题目

简介

任务分解

未来方向

结论

相关文章