大型语言模型对齐技术综述：RLHF、RLAIF、PPO、DPO 等

🕗 发布于 2024-07-26 09:22 人工智能 自动驾驶 深度学习 语言模型自然语言处理

随着自监督学习的进步、预训练语料库中数万亿标记的可用性、指令微调以及具有数十亿参数的大型Transformer的发展，大型语言模型（LLMs）现在能够生成符合事实且连贯的人类查询响应。然而，训练数据质量参差不齐可能导致生成不良响应，成为一个重大挑战。在过去的两年里，从不同角度提出了各种方法来增强LLMs，特别是在使其与人类期望对齐方面。尽管做出了这些努力，但尚未有一篇综合性调查论文对这些方法进行分类和详细说明。在本工作中，我们旨在填补这一空白，将这些论文分类为不同主题，并提供每种对齐方法的详细解释，从而帮助读者全面了解该领域的现状。

在过去的几十年中，通过自监督学习对大型语言模型（LLMs）进行的预训练取得了显著进展。这些进步得益于更大的仅解码Transformer的开发、数万亿标记的利用以及跨多个GPU的计算并行化。在预训练阶段之后，使用指令微调来指导LLMs响应人类查询。尽管取得了这些进展，但一个关键问题仍未解决：LLMs可能会生成不良响应，例如提供实施非法活动的指令。为降低这种风险，将LLMs与人类价值观对齐至关重要。

从人类反馈中进行强化学习（RLHF）已成为对齐LLMs的突破性技术。这种方法促进了强大模型的发展，如GPT-4、Claude和Gemini。自RLHF引入以来，许多研究探索了进一步对齐LLMs的各种方法。然而，尚未有一篇综合性评论文章对这些对齐方法进行系统性评审。本文旨在填补这一空白，通过分类回顾现有文献并对个别论文进行详细分析。

本文将我们的综述分为四个主要主题：1. 奖励模型；2. 反馈；3. 强化学习（RL）；4. 优化。每个主题进一步划分为如图1所示的子主题。对于奖励模型，子主题包括：1. 显式奖励模型与隐式奖励模型；2. 点对点奖励模型与偏好模型；3. 响应级别奖励与标记级别奖励；4. 负偏好优化。关于反馈，子主题包括：1. 偏好反馈与二元反馈；2. 成对反馈与列表反馈；3. 人类反馈与AI反馈。在RL部分，子主题包括：1. 基于参考的RL与无参考RL；2. 长度控制RL；3. RL中的不同散度；4. 在线RL与离线RL。对于优化，子主题包括：1. 在线/迭代偏好优化与离线/非迭代偏好优化；2. 分离SFT与对齐与合并SFT与对齐。表1使用这些13个评价指标对所有详细回顾的论文进行了分析。

分类大纲

这一部分简要介绍了LLM对齐的关键要素，使读者能够理解基本术语和各种现有的研究方向。主要包括四个方向：1. 奖励模型，2. 反馈，3. 强化学习策略，4. 优化。

2.1 奖励模型

奖励模型是一个经过微调的LLM，它根据提示和生成的响应分配分数。在本小节中，我们将讨论：

使用显式或隐式奖励模型，
采用点对点奖励模型或偏好模型，
使用标记级别或响应级别的奖励模型，
仅通过负偏好训练奖励模型。

这些不同奖励模型的图表见图2。

2.2 反馈

反馈包括来自人类或AI的偏好和二元响应，可以是成对或列表的形式。在本小节中，我们将讨论三个关键区别：

偏好反馈与二元反馈，
成对反馈与列表反馈，
人类反馈与AI反馈。

这些反馈的图表见图3。

2.4 优化

LLMs的对齐过程涉及优化。本节将讨论两个关键子主题：

迭代/在线偏好优化与非迭代/离线偏好优化，
分离SFT（监督微调）与对齐与合并SFT与对齐。

这些优化子主题的图表见图4。

原文地址：https://blog.csdn.net/2401_83878212/article/details/140694758

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：项目的小结
下一篇：论文总结：A Survey on Evaluation of Large Language Models-鲁棒性相关内容

linux线程cp模型，posix信号量，线程池，线程封装，单例模型，懒汉饿汉实现方式，自旋锁，读者写者模型
前面的同步，我们并没有一个很好的场景来模拟同步，只是简单的将有序的现象输出出来；现在我们来讲解一个比较合理且常见的模型——生产者消费者模型；
阅读更多2024-09-07
Qt/C++开源项目 TCP服务器调试助手（源码分享+发布链接下载）
该TCP服务器调试助手是用于测试和监控基于TCP协议的网络通信工具，能够帮助开发者便捷地进行网络通信调试。通过简洁的界面设计，用户可以轻松配置、管理TCP端口的连接，收发消息并进行数据监控分析。123
阅读更多2024-09-07
vue3整合antv x6实现图编辑器快速入门
例如：在上面节点基础上，我们有一个新的需求：给节点加上右键菜单。X6 支持使用 SVG、HTML 来渲染节点内容，在此基础上，我们还可以使用 React、Vue 组件来渲染节点，这样在开发过程中会非常
阅读更多2024-09-07
linux使用samba共享目录，其他虚拟机和windows都可以访问
linux使用samba共享目录，其他虚拟机和windows都可以访问
阅读更多2024-09-07
Linux系统编程实现ls -l | wc -l指令
由于该指令是通过管道的形式实现的，所以我们要使用系统函数pipe。ls -l |wc -l的作用就是统计当前目录有多少文件。由于父子间通过管道实现，所以存在读写阻塞问题，不用担心僵尸进程的产生，所以可
阅读更多2024-09-07
MySQL表操作及约束
MySQL表操作及约束
阅读更多2024-09-07
1.2CubeMAX创建FREERTOS入门示例
内核参数设置，用户根据自己的实际应用来裁剪定制。：相关宏的定义，可以自建一些常量在工程中使用。User Constants（用户常量）：定时器和信号量的创建。：用于查看堆使用情况。：任务与队列
阅读更多2024-09-07
YOLOv9改进策略【注意力机制篇】| PSA极化自我关注：实现高质量像素回归
本文记录的是基于PSA注意力模块的YOLOv9目标检测方法研究。PSA模块。本文将其应用到YOLOv9的检测任务中，使模型能够更好地捕捉图像中的细节信息，以实现目标检测任务中准确识别和定位。
阅读更多2024-09-07
爆改YOLOv8|利用yolov10的SCDown改进yolov8-下采样
yolov8改进，yolov10, 下采样SCDown, 即插即用
阅读更多2024-09-07
PDF样本图册转换为一个链接，随时打开无需印刷
想象一下，您手中有一本厚重的样本图册，里面包含了丰富多样的内容，如产品介绍、项目方案、学术论文等。在过去，您需要逐一翻阅、筛选，甚至为了便于查看，不得不将其印刷出来。如今，借助先进的数字化技术，还能实
阅读更多2024-09-07

大型语言模型对齐技术综述：RLHF、RLAIF、PPO、DPO 等

分类大纲

2.1 奖励模型

2.2 反馈

2.4 优化

相关文章