绝区捌--将GPT幻觉的发生率从20%以上降低到2%以下

🕗 发布于 2024-07-10 07:03 机器学习 学习 ai 开发语言

总结：我们没有使用微调，而是结合使用提示链和预处理/后处理来将幻觉发生率降低一个数量级，但这确实需要对 OpenAI 进行 3-4 倍的调用。还有很大的改进空间！

使用 GPT 等大型语言模型面临的最大挑战之一是它们倾向于捏造信息。

这对于生成用于创意写作或头脑风暴会议的文本等用例来说可能没什么问题，但当输出用于客户支持等商业应用时，这可能是灾难性的。幻觉或虚假信息的产生在这些情况下尤其有害，并可能导致严重后果。

即使一次虚假信息的产生也可能损害公司的声誉、导致法律责任并损害客户的利益。

有几种方法可以解决这一挑战。

一种常用方法是使用微调来提高模型在特定领域数据集上的准确性。微调的问题在于，当你拥有多租户 SaaS 产品时，收集特定领域的数据集很困难，因为每个客户的用例和用户角色都略有不同。所以我们必须找到其他方法来解决这个问题。

以下是我们目前所做的工作

提示词链接(Prompt Chaining)

我们尝试的第一件事是使用提示链技术将复杂的提示分解成几个部分，并让 GPT 在每一步“检查其答案”。

例如，我们不是使用用户输入和注入的内容单独调用 GPT，而是首先要求 GPT 评估它是否可以回答问题并证明其响应的合理性。我们目前有 3 个步骤——预处理步骤、评估步骤和响应步骤。

以下是我们在评估步骤中使用的提示示例。它只是要求 GPT 回答它是否可以根据提供的内容回答问题。"""<|im_start|>system You found the following content by searching through documentation. Use only this content to construct your response. {content}<|im_end|>
<|im_start|>user First, determine if the content found is sufficient to resolve the issue. Second, respond with a JSON in the format:
{
"content_contains_answer": boolean, // true or false. Whether the information in the content is sufficient to resolve the issue.
"justification": string // Why you believe the content you found is or is not sufficient to resolve the issue.
}
The inquiry: {inquiry}<|im_end|><|im_start|>assistant {
"content_contains_answer":<|im_end|>"""

请注意，我们要求 GPT 以 JSON 格式返回答案，并使用预期结构为助手的答案提供种子。这确保我们能够解析响应，并且几乎 100% 的时间都有效。

我们还注意到，content_contains_answer即使我们不使用它做任何事情，只需要求模型提供理由就可以提高其预测的准确性。你只需要叫出 GPT 的胡说八道！

这种方法将幻觉的发生率从20%降低到了5%。

后期处理

接下来帮助我们将效率从 5% 降至 2% 的是对 GPT 的输出进行后处理。这有几个步骤：

检查 token 的 e^(logprob) 是否true低于 90%。如果是，我们重新运行评估提示并强制content_contains_answer为假。我们发现这可以减少误报，而不会对误报产生太大影响。
如果content_contains_answer为假，我们将使用返回的理由并再次调用 GPT API 来重新措辞理由以将其定位到用户。这减少了我们最终输出出现奇怪措辞（如“用户应该……”）的可能性。这不完全是幻觉，也不是最佳体验。

预处理

这是我们最近添加的步骤，使我们的幻觉率低于 2%。我们做的第一件事是让 GPT 对用户查询的意图进行分类。根据意图，我们将在评估和响应步骤中使用不同的提示。

我们还在尝试对用户输入进行额外的预处理，使其更有可能在搜索步骤中找到相关结果。这可以通过从用户的查询中提取实体并在稀疏嵌入上以更高的权重运行向量搜索来实现。这有助于解决技术性问题并涉及特定标记组合（如），因为对于这些情况，关键字搜索比语义搜索更有用。这一切都是通过 Pinecone 的新混合搜索功能keras.save_model实现的。

最后的想法

最后一条可能有用的提示是将内容包装在 <Content></Content> 标签中。这有助于 GPT 理解不同来源之间的差异，甚至返回稍后可以str.replace()使用链接的占位符（例如 Content1）。您还可以对注入提示的任何其他数据执行此操作。

总体而言，我们发现，结合使用提示链、预处理和后处理可以很好地降低幻觉风险并提高 GPT 的准确性。缺点是它需要更多的 API 调用，但随着最近价格下降 90%，这现在非常可行。

欢迎你分享你的作品到我们的平台上：www.shxcj.com 或者 www.2img.ai 让更多的人看到你的才华。

创作不易，觉得不错的话，点个赞吧！！！

原文地址：https://blog.csdn.net/RamendeusStudio/article/details/140295442

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：Python数据处理必备：如何高效校验各种空值？
下一篇：springsecurity（学习自用）

基本定时器---内部时钟中断
STM32单片机的基本定时器介绍
阅读更多2024-11-15
高效稳定！新加坡服务器托管方案助力企业全球化布局
在全球化的商业环境中，企业对于高效、稳定的服务器托管方案的需求日益迫切。作为亚洲的服务器托管中心，新加坡凭借其独特的地理位置、稳定的政治环境、先进的科技设施以及开放的市场政策，为企业提供了理想的服务器
阅读更多2024-11-15
我要学kali-linux之shell脚本编程1
学习视频来自B站up主 **泷羽sec** 有兴趣的师傅可以关注一下，如涉及侵权马上删除文章，笔记只是方便各位师傅的学习和探讨，文章所提到的网站以及内容，只做学习交流，其他均与本人以及泷羽sec团队无
阅读更多2024-11-15
【网络安全】公钥基础设施
公钥基础设施（Public Key Infrastructure，简称PKI）是一种基于公钥密码学的系统，它提供了一套完整的解决方案，用于管理和保护通过互联网传输的信息。PKI的核心功能包括密钥管理、
阅读更多2024-11-15
PGMP-练练03 ❥(^_-)
由于项目集负责向组织提供收益，因此项目集经理、项目集团队成员、项目经理和团队成员以及其他项目集利益相关者都在收益管理中具有关键角色和责任。项目集 A 正在实现计划收益，然而项目集 B 的项目集经理刚
阅读更多2024-11-15
【c++笔试强训】（第八篇）
其中，有个游戏是这样的：首先，让 n 个小朋友们围成一个大圈，小朋友们的编号是0~n-1。然后，随机指定一个数 m ，让编号为0的小朋友开始报数。每次喊到 m-1 的那个小朋友要出列唱首歌，然后可以在
阅读更多2024-11-15
C语言之中缀表达式转换为波兰表达式、逆波兰表达式
C语言之中缀表达式转换为波兰表达式、逆波兰表达式，通过将运算符号压入栈、弹出栈等操作实现普通（中缀）表达式和前缀后缀（波兰、逆波兰）表达式之间的转换。
阅读更多2024-11-15
curl 安装最新版
配置编译参数：/usr/local为指定的安装路径，--with-ssl表示需要支持ssl。为了使curl能支持ssl功能，需要提前安装openssl，执行下列指令进行安装。库文件在对应的lib路径，
阅读更多2024-11-15
Conda环境与Ubuntu环境移植详解
迁移Conda环境是数据科学和机器学习开发中的一项重要任务。通过YAML文件迁移或直接复制环境文件夹的方法，可以在不同设备间无缝切换Conda环境，确保项目依赖的一致性。在进行环境迁移时，需要注意CU
阅读更多2024-11-15
Java面向对象高级2
感觉就是有时候简化代码用的？
阅读更多2024-11-15

绝区捌--将GPT幻觉的发生率从20%以上降低到2%以下

提示词链接(Prompt Chaining)

后期处理

预处理

最后的想法

相关文章