【AI学习】Lilian Weng：Extrinsic Hallucinations in LLMs（LLM 的外在幻觉）

🕗 发布于 2024-09-27 03:01 人工智能 学习神经网络 深度学习

来自OpenAI 的 Lilian Weng的《Extrinsic Hallucinations in LLMs》
Date: July 7, 2024 | Estimated Reading Time: 30 min | Author: Lilian Weng

文章链接：https://lilianweng.github.io/posts/2024-07-07-hallucination/

大概看了一下，这篇文章的核心内容和观点是讨论大型语言模型（LLM）中的外在幻觉问题。外在幻觉是指模型生成不真实、捏造、不一致或无意义的内容。同样重要的是，当模型不知道某个事实时，它应该这么说。
文章主要探讨了外在幻觉的原因、检测方法和减少幻觉的策略。

原因：

训练前数据问题： 预训练数据语料库可能包含过时、缺失或不正确的信息。
微调新知识： 微调阶段可能引入新的错误信息。（1） LLM 学习具有新知识的微调示例的速度比其他具有与模型预先存在的知识一致的知识的示例慢;（2） 一旦最终学习了具有新知识的例子，它们就会增加模型的幻觉倾向。

幻觉检测：

FactualityPrompt： 通过事实和非事实提示组成，使用Wikipedia文档或句子作为事实基础的知识库。
幻觉NE错误和蕴涵比率： 使用实体检测模型和文档级接地，测量未出现在真值文档中的命名实体的比例。
FActScore： 将长格式生成分解为多个原子事实，并根据Wikipedia等知识库分别验证每个事实。

减少幻觉的策略：

检索增强评估： 使用检索来使模型生成奠定基础，有助于减少幻觉。
SAFE： 搜索增强事实评估器，使用语言模型作为代理，在多步骤过程中选代地发出Google搜索查询。
FacTool： 检测各种任务中的事实错误，包括基于知识的QA、代码生成、数学问题解决和科学文献综述。
SelfCheckGPT： 依赖于对来自黑盒LLM的多个样本的事实性错误的一致性检查。
未知知识的校准： 提示模型生成对无法回答或未知问题的回答可能会触发幻觉。

抗幻觉方法：

RAG： 检索增强生成，通过检索相关文档，然后使用相关文档作为额外的上下文生成。
RARR： 使用研究和修订进行改造归因，追溯性地使LLM能够通过EditingforAttribution支持对外部证据的归因。
FAVA： 使用增强知识进行事实验证，检索相关文档，然后编辑模型输出以避免幻觉错误。

事实性微调：

TopicPrefix： 在每个句子前面附加主题以提高对事实的认识。
句子完成损失： 专注于句子的后半部分，因为句子的后半部分包含更多事实知识。

归因微调：

WebGPT： 结合文档检索与微调的GPT模型，旨在回答长篇问题以减少幻觉并实现更好的事实准确性。
GopherCite： 使用搜索引擎创建支持资料和教学模型来提供参考。

文章最后提供了一个评估基准的附录，列出了用于衡量LLMs中幻觉的各种数据集。

将文章通过在线翻译，转换了贴在下面，供大家参考

在这里插入图片描述

原文地址：https://blog.csdn.net/bylander/article/details/142578569

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：Codeforces Round 668 (Div. 1) B题 Tree Tag
下一篇：C++_24_适配器

多模态—图文匹配
在模型训练时我们需要N个图片和N个文本对进行训练，文本通过text encoder形成文本语义向量，text encoder可以采用BERT，GPT，Bart等，图片也需要通过image encode
阅读更多2024-10-05
新160个crackme - 073-abexcrackme3
C++程序分析，ida：call analysis failed无法分析伪代码处理，ida静态分析
阅读更多2024-10-05
【洛谷】AT_abc372_e [ABC372E] K-th Largest Connected Components 的题解
看 @guozhetao 大佬，写了这篇题解，然后发现我刚好也水过这场比赛的 D 题的题解，刚好顺便切一下 E，然后来写一个题解。查询的时候，直接找到这个点在哪个块内，然后查询相应值即可。，实现两个连
阅读更多2024-10-05
[C++][第三方库][Elasticsearch]详细讲解
[C++][第三方库][Elasticsearch]详细讲解
阅读更多2024-10-05
yub‘s Algorithmic Adventures_Day5
我们想实现的是1和2交换，3和 4交换，此时很难不想到借用中间变量实现，不用递归实现【每次单独处理头节点】更优雅.与数组不同，链表没必要定义新的链表进行存储【对内存空间的浪费】判断next.next不
阅读更多2024-10-05
【LeetCode】每日一题 2024_9_30 座位预约管理系统（堆）
【LeetCode】每日一题 2024_9_30 座位预约管理系统（堆）
阅读更多2024-10-05
LLM端侧部署系列 | 手机上运行47B大模型?上交推理框架PowerInfer-2助力AI手机端侧部署
近日，上海交大为大模型能够在智能手机上部署提出PowerInfer-2，该框架是专为智能手机设计且高度优化的推理框架。目前PowerInfer-2支持的最大模型是Mixtral 47B MoE模型，在
阅读更多2024-10-05
关于Generator，async 和 await的介绍
在本篇文章中我们主要围绕下面几个问题来介绍async 和await🍰Generator的作用，async 及 await 的特点，它们的优点和缺点分别是什么？await 原理是什么？📅我的感受是我们先
阅读更多2024-10-05
Python日常搜索_random
Python日常搜索_random
阅读更多2024-10-05
JavaScript模块化-CommonJS规范和ESM规范
CommonJS 是 Node.js 最初采用的模块系统，基于 require 和 module.exports以及exports 实现动态模块加载。尽管ESM才是官方的模块化标准，但是CommonJ
阅读更多2024-10-05

【AI学习】Lilian Weng：Extrinsic Hallucinations in LLMs（LLM 的外在幻觉）

相关文章