SELF-RAG: 通过自我反思学习检索、生成和批判——图文并茂总结

🕗 发布于 2025-01-22 20:57 学习

论文地址：https://arxiv.org/pdf/2310.11511

1. 背景与挑战

大型语言模型（LLMs）虽然功能强大，但在生成内容时常常会出现事实性错误。这是因为它们仅依赖于自身参数中存储的知识，而缺乏对外部知识的检索和验证能力。

2. 现有解决方案：检索增强生成（RAG）

RAG 通过将检索到的相关文本段落与输入一起提供给 LLM，从而减少知识密集型任务中的事实性错误。然而，RAG 也存在以下问题：

盲目检索：无论检索是否必要，都会检索固定数量的段落，这会降低 LLM 的灵活性，并可能导致生成低质量的内容。
缺乏一致性：模型不会显式地利用和遵循检索到的段落中的事实，导致生成内容与检索到的信息不一致。

3. SELF-RAG：自我反思的检索增强生成

为了解决上述问题，本文提出了 SELF-RAG（自我反思的检索增强生成） 框架，通过按需检索和自我反思来提高 LLM 的生成质量和事实准确性，同时不损害其创造力和灵活性。

3.1 框架概述

SELF-RAG 的核心思想是让 LLM 在生成过程中进行自我反思，并通过生成特殊的**反思标记（Reflection Tokens）**来控制其行为。

反思标记分为检索标记和批判标记，分别用于指示是否需要检索以及生成内容的质量。

SELF-RAG 框架概述

图 1：SELF-RAG 框架概述

检索标记（Retrieve）：决定是否需要检索外部文档。
- Yes：需要检索。
- No：不需要检索。
- Continue：继续使用之前检索到的证据。
批判标记（Critique Tokens）：
- ISREL：判断检索到的证据是否与输入相关。
  - Relevant：相关。
  - Irrelevant：不相关。
- ISSUP：判断输出是否得到证据的充分支持。
  - Fully supported：完全支持。
  - Partially supported：部分支持。
  - No support / Contradictory：不支持/矛盾。
- ISUSE：评估输出的整体有用性（从 1 到 5 分）。

3.2 训练过程

SELF-RAG 的训练分为两个阶段：

3.2.1 训练批判模型（Critic Model）

数据收集：使用 GPT-4 为每个输入-输出对生成反思标记，并将其作为监督数据。
- 手动评估表明，GPT-4 生成的反思标记与人工评估高度一致。
模型训练：使用标准条件语言建模目标对预训练的 LLM 进行微调，以预测反思标记。

SELF-RAG 训练示例

图 2：SELF-RAG 训练示例

3.2.2 训练生成模型（Generator Model）

数据收集：使用批判模型对输入-输出对进行增强，插入反思标记和检索到的段落，生成训练数据。
模型训练：使用标准下一个词预测目标对生成模型进行训练，使其能够预测目标输出以及反思标记。

4. 推理过程

SELF-RAG 在推理过程中通过生成反思标记来自我评估其输出，从而实现对模型行为的控制。

4.1 自适应检索

按需检索：模型根据预测的检索标记决定是否需要检索。
阈值控制：设置一个阈值，当检索标记的概率超过该阈值时触发检索。

4.2 基于批判标记的树形解码

并行处理：对于每个检索到的段落，模型并行生成多个候选输出。
段级束搜索：使用段级束搜索（beam search）来选择最佳输出序列。
- 每个段落的得分由批判标记的加权线性组合决定。
- 可以通过调整权重来定制模型的行为，例如：
  - 强调证据支持度：提高 $\boxed{\mathrm{ISSUP}}$ 的权重。
  - 强调流畅性：降低 $\boxed{\mathrm{ISSUP}}$ 的权重。

SELF-RAG 推理过程

图 3：SELF-RAG 推理过程分析

5. 实验结果与分析

5.1 主要结果

与无检索基线比较：SELF-RAG 在所有任务上都显著优于监督微调的 LLM，甚至在 PubHealth、PopQA、传记生成和 ASQA（ROUGE 和 MAUVE）任务上超过了 ChatGPT。
与检索增强基线比较：SELF-RAG 在大多数任务上优于现有的 RAG 方法，在所有任务上均取得了非专有 LLM 模型的最佳性能。

5.2 分析

消融研究：所有组件（检索器、批判模型、推理算法）在模型性能提升中都起着重要作用。
- 消融实验表明，SELF-RAG 的按需检索和细粒度多标准生成选择能力是其性能提升的关键。
推理时定制化的影响：通过调整批判标记的权重，可以控制模型的行为，例如：
- 提高证据支持度的权重可以提高模型的引用精度，但可能会降低流畅性。
检索频率与准确性的权衡：使用自适应阈值可以有效控制检索频率，并在准确性和效率之间取得平衡。
训练数据规模的影响：增加训练数据规模通常可以提高模型性能，尤其是在 PopQA 和 ASQA 任务上。

训练规模与人类分析

图 4：训练规模与人类分析

人类评估：SELF-RAG 的输出通常具有较高的合理性，并且能够生成与证据相符的内容。

6. 结论

SELF-RAG 是一种创新的框架，通过按需检索和自我反思来提高 LLM 的生成质量和事实准确性。实验结果表明，SELF-RAG 在多个任务上均优于现有的 LLM 和 RAG 方法。

7. 伦理考量

尽管 SELF-RAG 在提高 LLM 的事实准确性方面取得了显著进展，但它仍然可能生成与证据不完全相符的内容。
SELF-RAG 的自我反思机制和细粒度的归因信息可以帮助用户验证模型输出中的事实性错误。

8. 关键创新点

反思标记：引入反思标记，使模型能够自我评估和调整其行为。
按需检索：根据任务需求进行检索，避免不必要的检索，提高效率。
细粒度批判：对检索到的证据和生成内容进行细粒度批判，提高生成质量。
推理时定制化：通过调整批判标记的权重，实现对模型行为的灵活控制。

9. 未来方向

探索更高效的检索系统，例如指令微调的检索系统或检索和 LLM 组件的联合训练。
将 SELF-RAG 应用于更多类型的任务，例如对话系统、文本摘要等。
进一步研究如何更好地利用反思标记来提高模型的可解释性和可控性。

原文地址：https://blog.csdn.net/Yuleave/article/details/145291475

免责声明：本站文章内容转载自网络资源，如侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：【力扣系列题目】不同路径组合总和最大连续1个数打家劫舍{持续更新中...}
下一篇：【Nginx系列】Nginx配置超时时间

Swift语言的操作系统
Swift是苹果公司于2014年发布的一种强类型、编译型的编程语言。与Objective-C相比，Swift更加简洁、安全，提供了许多现代化的编程特性，如类型推断、闭包、元组等。Swift的设计目标是
阅读更多2025-01-22
C# 委托和事件(事件)
回调(callback）函数是Windows编程的一个重要部分。C或C++编程背景，在许多Windows API中使用过回调。VB添加AddressOf关键字后，开发人员就可以利用以前一度受到限制的A
阅读更多2025-01-22
AI赋能Flutter开发：ScriptEcho助你高效构建跨端应用
Flutter凭借其“一次编写，多端运行”的特性，成为众多开发者的首选跨端开发框架。然而，即使Flutter拥有快速开发的优势，开发者在实际项目中仍然可能面临效率瓶颈，例如UI界面搭建耗时、代码重复编
阅读更多2025-01-22
【Rabbitmq】Rabbitmq高级特性-发送者可靠性
首先通过配置可以让交换机、队列、以及发送的消息都持久化。这样队列中的消息会持久化到磁盘，MQ重启消息依然存在。RabbitMQ在3.6版本引入了LazyQueue，并且在3.12版本后会称为队列的默认
阅读更多2025-01-22
C++ random_shuffle函数：从兴起到被替代
这个函数需要一个随机数生成器，这个生成器必须满足UniformRandomBitGenerator的要求。利用提供的随机数生成器，对序列中的元素进行随机排列。与相比，能够更灵活地使用C++11及更高版
阅读更多2025-01-22
python高级加密算法AES对信息进行加密和解密
（高级加密标准）是一种广泛使用的对称加密算法，它以字节为单位处理数据，将明文分组加密成密文。AES算法的核心在于一个轮函数，该函数会对数据执行多次变换，包括字节代换、行移位、列混合和轮密钥加。这些操作
阅读更多2025-01-22
docker安装consul并启动的详细步骤
安装docker以后，你可以尝试安装各类容器，如consul。
阅读更多2025-01-22
python md5加密
这段代码定义了一个md5_encryption函数，它接受一个字符串作为参数，对该字符串进行MD5加密，然后返回加密后的十六进制字符串。在调用函数时，你可以传入任何需要加密的数据，并打印出其MD5加密
阅读更多2025-01-22
数据结构-二叉树
7、双亲节点或父节点：若一个节点含有子节点，则这个节点称为其子节点的父节点。//先序创建：根左右初始化函数，就是把树的所有节点存进去的过程。//中序创建：左根右初始化函数，就是把树的所以节
阅读更多2025-01-22
django使用踩坑经历
使用Django过程中的一些踩坑经历
阅读更多2025-01-22