论文笔记：Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks

🕗 发布于 2024-11-25 10:39 论文阅读自然语言处理 人工智能

1. 挑战/问题（Challenges/Issues）：

这篇论文探讨了大型预训练语言模型在处理知识密集型自然语言处理（NLP）任务时面临的挑战。尽管这些模型在参数中存储了大量事实知识，并在微调后能够在下游NLP任务中取得很好的效果，但它们在访问和精确操作知识方面的能力仍然有限。此外，为模型的决策提供出处（provenance）和更新它们的世界知识仍然是开放的研究问题。

2. 技术贡献（Technical Contribution）：

论文提出了一种名为检索增强生成（Retrieval-Augmented Generation, RAG）的通用微调方法，用于结合预训练的参数化和非参数化记忆进行语言生成。具体来说，RAG模型将预训练的序列到序列（seq2seq）模型作为参数化记忆，并将维基百科的密集向量索引作为非参数化记忆，通过预训练的神经检索器进行访问。这种方法允许模型在生成语言时直接修订和扩展知识，并能够检查和解释访问的知识。

在这里插入图片描述

models

RAG-Sequence Model： RAG-Sequence 模型使用相同的检索文档来生成完整的序列。从技术上讲，它将检索到的文档视为单个潜在变量，该变量被边缘化以通过 top-K 近似获得 seq2seq 概率 p(y|x)。具体来说，使用检索器检索前 K 个文档，生成器生成每个文档的输出序列概率，然后将其边缘化，
RAG-Token Model：在 RAG-Token 模型中，可以为每个目标 token 绘制不同的潜在文档并相应地边缘化。这允许生成器在生成答案时从多个文档中选择内容。具体来说，使用检索器检索前 K 个文档，然后生成器为每个文档生成下一个输出标记的分布，然后进行边缘化，并使用以下输出标记重复该过程。

在这里插入图片描述

Retriever: DPR

在这里插入图片描述

作者把document index 称为 non-parametric memory

Generator: BART

使用 BART-large ，一个具有 400M 参数的预训练 seq2seq 转换器。为了在从 BART 生成时将输入 x 与检索到的内容 z 结合起来，只需将它们连接起来即可。 BART 使用降噪目标和各种不同的噪声函数进行了预训练。作者把bart generator 称为parametric memory

训练

联合retriever和generator，而无需直接监督应检索哪些文档。给定输入/输出对 (xj, yj) 的微调训练语料库，使用 Adam的随机梯度下降来最小化每个目标的负边际对数似然 Σ_j − log p(y_j|x_j)。在训练期间,更新文档编码器 BERT_d 的成本很高，作者认为这一步对于强大的性能来说不是必需的，因此保持文档编码器（和索引）fixed，仅微调查询编码器 BERT_q 和 BART generator。

Decoding

在测试时，RAG-Sequence 和 RAG-Token 需要不同的方法来近似 argmax_y p(y|x)

RAG-Token：RAG-Token 模型可以看作是一个标准的自回归序列到序列生成器，其状态转移概率为：

在这里插入图片描述

在解码时，可以将其插入到一个标准的束搜索（beam decoder）中进行推断。

RAG-Sequence

3. 评估/实验结果（Results of Evaluation/Experiments）：

RAG模型在三个开放域问答任务上设定了新的最高标准，超过了仅参数化的seq2seq模型和特定任务的检索-提取架构。在语言生成任务中，RAG模型比最先进的仅参数化seq2seq基线生成了更具体、更多样化和更事实性的语言。此外，RAG模型在FEVER事实验证任务中取得了接近使用强大检索监督的最先进的管道模型的结果，并且展示了非参数化记忆可以根据世界的变化更新模型的知识。

原文地址：https://blog.csdn.net/weixin_47505105/article/details/144012717

免责声明：本站文章内容转载自网络资源，如侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：搜索引擎中广泛使用的文档排序算法——BM25（Best Matching 25）
下一篇：BERT的基本理念

Linux 网络：交换芯片 EDSA 以太网帧简介
Linux，网络，EDSA，交换芯片，88E6320
阅读更多2025-01-24
【PCL】Segmentation 模块—— 条件欧几里得聚类（Conditional Euclidean Clustering）
PCL（Point Cloud Library）中的 Conditional Euclidean Clustering（条件欧几里得聚类）是一种点云分割算法，用于将点云数据划分为多个聚类（或称为“簇
阅读更多2025-01-24
Golang笔记—— error 和 panic
本文详细介绍Golang的两种错误处理机制：error 和 panic。
阅读更多2025-01-24
随机变量的变量替换——归一化流和直方图规定化的数学基础
变量替换是一种在统计学和数学中广泛应用的技术，它通过定义新的变量来简化问题，使得原本复杂的随机变量变得更加容易分析。变量替换的公式，用于将一个随机变量 XXX 的概率密度函数 fXf_XfX 转换为
阅读更多2025-01-24
Linux系统总结
Linux系统总结
阅读更多2025-01-24
Android SystemUI——通知栏构建流程（十六）
如果说 StatusBar 是代码最多最重要的一个，那 Notification 是使用最多，最广泛的一个。对于通知栏的构建与前面快捷设置面板相似，都是在状态栏（StatusBar）中完成的，这里我们
阅读更多2025-01-24
前端【5】-html+css实战项目--河大迎新网搭建
代码比较简单，主要是为了掌握常见标签和弹性盒子的使用,html,css搭建静态页面的学习到此为止啦~后面将会进行js动态交互页面的学习。
阅读更多2025-01-24
【unity游戏开发之InputSystem——02】InputAction的使用介绍（基于unity6开发介绍）
【unity游戏开发之InputSystem——02】InputAction的使用介绍（基于unity6开发介绍）
阅读更多2025-01-24
LeetCode：53. 最大子序和
LeetCode：53. 最大子序和
阅读更多2025-01-24
lvm快照备份实验
这个实验可以帮助你了解如何使用LVM快照备份MySQL数据库，并且在需要时可以使用备份文件恢复数据，确保数据的安全和完整性。通过上述实验，你可以实现一个简单的LVM快照备份MySQL数据库的过程，以保
阅读更多2025-01-24

论文笔记：Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks

1. 挑战/问题（Challenges/Issues）：

2. 技术贡献（Technical Contribution）：

models

Retriever: DPR

Generator: BART

训练

Decoding

3. 评估/实验结果（Results of Evaluation/Experiments）：

相关文章