大模型-微调与对齐-非强化学习的对齐方法

🕗 发布于 2024-11-22 16:43 深度学习 人工智能 机器学习 大模型

一、简介

1、为什么需要使用非强化学习对齐方法，因为RLHF有以下缺点

需要同时维护更新多个模型，资源占用多，执行过程复杂
近端策略优化算法在优化过程中稳定性较差，对超参数取值较为敏感，增加了训练的难度和不确定性

2、改进

改进方式：直接基于监督微调的对齐方法，利用高质量数据集，通过特定监督学习算法对大模型进行微调
改进后的优点：更简洁、更直接、避免复杂的强化学习算法带来的种种问题
监督微调算法过程：在优化过程中使得模型能够区分对齐的数据和未对齐的数据（或者对齐质量的高低），进而从数据中学习到人类期望对齐的行为模式
监督微调对齐两要素
- 高质量对齐数据集
- 设计监督微调算法

二、对齐数据的收集

1、具体方式

基于奖励模型构建
利用经过对齐的大模型来构建

2、基于奖励模型的方法

训练过程
1、大模型基于输入生成输出
2、奖励模型打分、分组、生成对齐数据
3、监督微调待对齐大模型

3、基于大模型的方法

训练过程
1、使用自然语言指令与相关示例让大模型对自己输出进行评价、检查，并对有害内容进行修正，最终生成对齐数据
2、两个模型不停对话，不停修正，生成对齐数据

三、代表性监督微调算法DPO

1、DPO

简介：直接偏好优化算法，通过有监督微调相似的复杂度实现模型对齐，不需要训练中采样，超参数选择也很容易
思想：在强化学习的目标函数中建立决策函数与奖励函数之间的关系，以规避奖励建模的过程
特点：
1、不仅训练模型生成人类偏好内容，同时会降低生成不符合人类偏好内容的概率
2、只需要加载策略模型和参考模型，不用加载奖励模型和评价模型，占用资源少，运行效率高，对齐性能好

四、其他有监督微调算法

1、思想

基于对齐数据，使用传统的序列到序列生成目标（交叉熵损失）来优化
搭配一些辅助优化慕白哦，增加对齐数据的学习利用效率

2、基于质量提示的训练目标

使用提示技术帮助模型区分正负例

3、基于质量对比的训练目标

使用针对质量排过序的输出内容协助模型进行训练

五、SFT、RLHF

指令微调在有的理论里面是属于监督微调（SFT）的一部分，SFT是RLHF的第一个流程
SFT作用是解锁大模型能力，不能扩充大模型能力，如果微调时有一些输入超过大模型能力，大模型容易出现幻象
RLHF能增加模型的综合能力，增强有用性和无害性，但是RLHF的训练过程不稳定，经过SFT之后再RLHF会好很多

原文地址：https://blog.csdn.net/sgliquangang/article/details/143952292

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

分布式数据库
随着互联网的快速发展，数据量和访问量呈现爆炸式增长，单机数据库逐渐难以满足高并发、大规模数据存储和处理的需求。分布式数据库应运而生，成为解决这些问题的重要技术。分布式数据库不仅能够处理大规模数据，
阅读更多2024-11-23
【手写一个spring】spring源码的简单实现--初始化机制,回调机制
这个操作符返回一个布尔值：如果对象是指定类型的实例，或者是指定类型子类的实例，则返回 true；初始化时自动调用相应的回调方法，并将相关的上下文或资源对象传递给。接口:如果实现,直接强制类型转换后,对
阅读更多2024-11-23
HTML常用表格与标签
【代码】HTML常用表格与标签。
阅读更多2024-11-23
云服务器部署WebSocket项目
5.上传war包到tomcat文件夹的webapp目录下。先执行clean，再执行install。（2）解压后进入到文件目录，启动。3.在服务器上安装tomcat。6.重新启动tomcat，访问。2.
阅读更多2024-11-23
TESSY单元测试工具详解与操作演示：ISO 26262合规性、自定义测试用例、详细测试报告等
单元测试工具TESSY，符合ISO 26262等汽车软件安全标准，简化和自动化测试流程，基本操作演示请查收↓创建新模块、定义测试用例输入测试数据、执行与评估测试生成详细的测试报告...
阅读更多2024-11-23
【深入学习大模型之：微调 GPT 使其自动生成测试用例及自动化用例】
训练深度学习模型自动生成测试用例、自动化代码和文本小说的步骤：数据准备：收集并清洗目标任务所需的数据集。模型选择：选择合适的预训练模型（如GPT系列、T5等），并对其进行微调。模型训练：使用训练框架（
阅读更多2024-11-23
python语言基础
【代码】python语言基础。
阅读更多2024-11-23
Linux麦克风录音实战
在 Linux 上使用麦克风进行录音可以通过多种方式实现，包括使用命令行工具、图形界面应用程序以及编程接口。下面我将介绍几种常见的方法，从简单的命令行工具到使用 PortAudio 库进行编程。
阅读更多2024-11-23
Cesium的ClearCommand的流程
ClearCommand是在每帧渲染前可以将显存的一些状态置为初始值，就如同把擦黑板。当然也包括在绘制过程中擦掉部分的数据，就如同画家在开始绘制的时候会画导览线（如透视线），轮廓出来后这些导览线就会被
阅读更多2024-11-23
集成金蝶云星空数据至MySQL的完整案例解析
在本次集成方案中，我们利用了轻易云数据集成平台的强大功能，实现了从金蝶云星空获取物料数据并同步至MySQL数据库的全过程管理。综上所述，通过合理配置元数据，构建合适的SQL语句，并结合异常处理和实时监
阅读更多2024-11-23