生成式语言模型三范式预训练、微调、强化反馈学习

🕗 发布于 2024-11-20 12:06 语言模型学习 人工智能

ChatGPT 是一种典型的大语言模型，其训练过程可以分为预训练、微调和**强化学习（RLHF）**这三个主要阶段。以下是对这些阶段的详细讲解：

1. 预训练（Pretraining）

目标：让模型掌握基本的语言理解与生成能力。

数据来源：
预训练通常使用大量的通用文本数据，包括书籍、文章、维基百科等网络上的公开文本。数据经过清理，以确保质量和多样性。
方法：
模型通过一个自回归目标进行训练，即预测给定上下文中下一个单词的概率。
公式表示为：
[
P(w_t|w_{t-1}, w_{t-2}, …, w_1)
]
这里，(w_t) 是当前词，(w_{t-1}), (w_{t-2}) 等是之前的词。
模型能力：
通过预训练，模型学习到广泛的语言模式、语法规则以及某些世界知识。此阶段的结果是一个具备通用语言处理能力的大模型。

2. 微调（Fine-Tuning）

目标：使模型在特定任务或领域上表现更优。

数据来源：
使用更小但标注精细的数据集，例如对话数据或特定领域的文本数据。这些数据集通常由人工标注，以确保模型输出符合目标需求。
方法：
在已有的预训练模型基础上，通过监督学习调整参数。
- 模型输入：上下文（如用户问题）。
- 模型输出：根据标注提供的理想答案。
- 损失函数：计算模型输出和理想答案之间的误差，进行参数更新。
实例：
微调后的 ChatGPT 能更好地理解对话情境，生成连贯且上下文相关的回答。

3. 强化学习（强化反馈学习，RLHF）

目标：优化模型生成的内容，使其更符合人类偏好。

过程：
RLHF（Reinforcement Learning with Human Feedback）是一个结合人类反馈与强化学习的过程。具体包括以下步骤：

1) 创建奖励模型（Reward Model）：
- 人类评审员对模型生成的多组回答进行排序（如回答 A 比回答 B 更好）。
- 训练一个奖励模型来模仿这种排序，从而量化模型输出的“好坏”。
2) 强化学习优化：
- 使用奖励模型为 ChatGPT 的输出分配奖励分数。
- 通过强化学习算法（如策略梯度法，Proximal Policy Optimization, PPO），优化模型生成的内容，使其在奖励模型上得分更高。
好处：
- 输出更符合人类审美和伦理要求。
- 减少毒性语言、不相关内容以及逻辑混乱的回答。

总结

预训练提供通用语言能力。
微调调整模型以适应特定任务。
强化反馈学习通过人类反馈进一步优化，提升用户体验。

这种三阶段训练流程结合了大规模数据、精细标注和人类反馈，是当前先进语言模型性能的关键所在。

原文地址：https://blog.csdn.net/weixin_40941102/article/details/143887070

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：leetcode hot100【LeetCode 74.搜索二维矩阵】java实现
下一篇：请问有什么限制预约报名人数的微信小程序/系统？

鸿蒙进阶篇-TextInput&TextArea和Checkbox
在鸿蒙开发中，TextInput 用于单行文本输入，TextArea 用于多行文本输入，Checkbox 则是用于多项选择的复选框组件。
阅读更多2024-11-21
MySQL45讲第二十六讲备库为什么会延迟好几个小时？——阅读总结
在MySQL数据库的主备架构中，备库延迟是一个需要重点关注的问题。它可能影响系统的可用性和数据的一致性，尤其是在主库压力较大时，备库延迟可能达到数小时甚至永远无法追上主库。今天，我们将深入探讨MySQ
阅读更多2024-11-21
快速简单的视频下载器——lux
在学习之余，发现了一个简单并且高效的视频下载器lux,能够帮你快速且高效的下载文件（不仅仅是视频可以），所以写了一篇博客分享lux的相关内容这个简单并且高效的视频下载器lux，一定会提高你的下载效率的
阅读更多2024-11-21
XGBOOST、LightGBM、CATBoost
本文介绍了三种 GBDT 的优化算法，可以根据实际情况进行选择。
阅读更多2024-11-21
【JAVA】Java基础—面向对象编程：常用API与数据结构—字符串、数组的使用
在Java编程中，字符串和数组是两个非常基础且重要的数据结构。它们在日常开发中无处不在，理解它们的使用及其背后的理论知识是成为一名合格Java开发者的必经之路。：可以将字符串比作一本书的章节。每个章节
阅读更多2024-11-21
Docker-Compose 快速部署安装 Nginx 或其他应用
测试部署的 Nginx 是否运行正常，可以在浏览器中访问 Nginx 所在的 IP 或端口，确保能够看到默认的 Nginx 页面。（如果你安装的是 Docker CE）。将下载的 Docker-Com
阅读更多2024-11-21
微信小程序申请getlocation权限
2、如果小程序没有导航功能。可以使用wx.openLocation写一个导航页面功能，以便进行权限申请。所以需要申请getlocation权限的开启。体验版没有申请开启不影响使用，但是上线提审必须申请
阅读更多2024-11-21
(RK3566驱动开发 - 2）.IIC驱动
【代码】(RK3566驱动开发 - 2）.IIC驱动。
阅读更多2024-11-21
04 搭建linux驱动开发环境
虽然 petalinux 功能很全面，但是其编译速度较慢，不适用于驱动调试阶段（因为驱动调试阶段会频繁修改驱动模块、内核、设备树等），因此本章将采用分步编译的方式来编译启动开发板所需要的各种镜像文件，
阅读更多2024-11-21
2025蓝桥杯（单片机）备赛--扩展外设之NE555的使用及定时器1的详细讲解（十）
超详细的定时器555讲解
阅读更多2024-11-21

生成式语言模型 三范式 预训练、微调、强化反馈学习

1. 预训练（Pretraining）

2. 微调（Fine-Tuning）

3. 强化学习（强化反馈学习，RLHF）

总结

相关文章

生成式语言模型三范式预训练、微调、强化反馈学习