PPO(Proximal Policy Optimization)算法介绍

🕗 发布于 2024-11-07 08:53 算法

引言

Proximal Policy Optimization（PPO） 算法，是强化学习领域的一种先进算法，由OpenAI的研究人员在2017年提出。它以其高效性、稳定性和易于实现等优点，广泛应用于各类强化学习任务，尤其是在大规模模型的策略优化中。

一、背景与动机

在策略优化的强化学习中，目标是找到一个策略，使得在与环境交互时获得的累计奖励最大。早期的策略梯度方法如REINFORCE，虽然概念简单，但在实践中可能出现学习效率低、收敛慢等问题。

为了解决策略更新过程中可能出现的剧烈变化和不稳定性，研究人员提出了 信赖域策略优化（Trust Region Policy Optimization，TRPO） 算法。TRPO通过限制新旧策略的KL散度，保证每次更新不会偏离过远。但TRPO实现复杂，计算代价高，不易于大规模应用。

PPO的提出旨在以一种更简单、高效的方式，实现类似于TRPO的效果，避免策略更新过大导致的性能下降，同时保持实现上的简洁性。

二、PPO的核心思想

PPO的核心思想是在策略更新时，通过修改损失函数，限制新旧策略之间的差异，从而防止策略更新过大导致不稳定性。这种方法被称为“接近策略优化”（Proximal Policy Optimization），因为每次更新都使得新策略仅在“接近”于旧策略的范围内改进。

三、PPO的关键技术细节

3.1 概率比率（Probability Ratio）

在策略梯度方法中，我们通常需要计算策略的梯度。PPO引入了概率比率来度量新旧策略在某个状态下采取某动作的概率之比：

$r_t(\theta) = \frac{\pi_\theta(a_t|s_t)}{\pi_{\theta_{\text{old}}}(a_t|s_t)}$

$\pi_\theta$ ：参数为 $\theta$ 的新策略。
$\pi_{\theta_{\text{old}}}$ ：旧策略。

3.2 损失函数设计

PPO定义了一个新型的剪辑（Clipped）损失函数，以限制策略更新的范围：

$L^{\text{CLIP}}(\theta) = \mathbb{E}_t \left[ \min \left( r_t(\theta) \hat{A}_t, \ \text{clip}\left( r_t(\theta), 1 - \epsilon, 1 + \epsilon \right) \hat{A}_t \right) \right]$

$\hat{A}_t$ ：优势函数的估计，表示在状态 $s_t$ 采取动作 $a_t$ 相对于某基准策略的优势。
$\epsilon$ ：一个很小的正数，通常取值如0.1或0.2，用于限制策略更新的幅度。
$\text{clip}(\cdot)$ ：剪辑函数，将概率比率 $r_t(\theta)$ 限制在 $\epsilon, 1 + \epsilon]$ 范围内。

剪辑机制的作用：
当 $r_t(\theta)$ 偏离1的程度超过 $\epsilon$ 时，损失函数会被剪辑，以避免对策略参数的过度更新。这种机制在增大收敛速度的同时，保证了策略更新的稳定性。

3.3 优化目标

PPO的优化目标是最大化上述剪辑损失函数，即：

$\theta_{\text{new}} = \arg\max_\theta L^{\text{CLIP}}(\theta)$

通过梯度上升方法，对策略参数 ( \theta ) 进行迭代更新。

四、PPO的工作流程

1.采集数据： 在当前策略 $\pi_{\theta_{\text{old}}}$ 下，与环境交互，生成一系列状态、动作、奖励数据。
2.计算优势函数 $\hat{A}_t$ ： 利用时间差分（TD）方法或广义优势估计（GAE）来估计优势函数。
3.计算概率比率 $r_t(\theta)$ ： 根据新旧策略计算概率比率。
4.更新策略参数 $\theta$ ： 通过优化剪辑损失函数 $L^{\text{CLIP}}(\theta)$ ，使用梯度上升或优化器（如Adam）更新策略参数。
5.重复迭代： 更新后的策略作为新的旧策略，重复上述过程，直到收敛或达到预定的训练轮数。

五、PPO在RLHF中的应用

在RLHF中，PPO被用于微调预训练语言模型的策略，使其生成的内容更符合人类偏好。

策略模型 $\pi_\theta$

预训练的语言模型，被视为生成文本的策略，其参数为 $\theta$ 。

奖励模型( R )

奖通过人类反馈训练得到的模型，用于评估策略模型生成的文本质量，输出一个奖励值。

优化过程

生成文本：策略模型根据输入提示生成回复。
计算奖励：奖励模型评估生成的回复，得到奖励值 $R(s_t, a_t)$ 。
优势估计：计算优势函数 $\hat{A}_t$ ，通常基于奖励和价值函数估计。
策略更新：使用PPO算法，优化策略模型的参数 $\theta$ ，最大化预期奖励。

优势

效率：PPO的高效性使得在大规模模型上进行策略优化成为可能。
稳定性：剪辑机制保证了策略更新的稳定性，避免了生成质量的大幅波动。
可控性：通过奖励模型，结合PPO，可以精细地调控模型生成的行为，使其更符合人类偏好。

六、PPO的优点与局限

优点

易于实现：相比于TRPO等算法，PPO的实现更加简单明了。
高效稳定：在保证策略更新稳定性的同时，保持了较高的样本效率。
适用广泛：适用于离散和连续动作空间的任务。

局限

超参数敏感：需要仔细调节超参数 $\epsilon$ 以及学习率等。
样本相关性：需要足够多的样本来估计优势函数，否则可能影响收敛性能。

七、总结

PPO通过引入剪辑损失函数，有效地限制了策略更新的幅度，兼顾了学习效率和更新稳定性。在RLHF中，PPO作为微调预训练语言模型的关键算法，发挥了重要作用，使得模型能够从人类反馈中高效学习，生成更符合人类期望的内容。

原文地址：https://blog.csdn.net/2301_79093491/article/details/143575615

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：[vulnhub]Empire: Breakout
下一篇：Ionic Range: Building Dynamic Range Sliders for Mobile Apps

支持向量机相关证明解的稀疏性
主要涉及拉格朗日乘子法，对偶问题求解。
阅读更多2024-11-07
【SpringBoot】使用注解进行XSS防御
在Spring Boot中，我们可以使用注解的方式来进行XSS防御。注解是一种轻量级的防御手段，它可以在方法或字段级别对输入进行校验，从而防止XSS攻击。
阅读更多2024-11-07
使用kalibr_calibration标定相机（realsense）和imu（h7min）
另外可以再加两个(非必要)： /camera/left/camera_info /camera/right/camera_info。2.录制的时候要注意按照官方的说法-充分激励IMU- 绕3个轴旋转和
阅读更多2024-11-07
Spring Boot框架的知识分类技术解析
程序一旦开发完成，就会投入生活中使用，使用者大多都是使用程序的功能区解决问题，之所以去分析程序需要具备的性能特征，主要还是确保程序运行中，在质量上是可靠的，在数据安全上是值得放心的，以及程序是一个健壮
阅读更多2024-11-07
【Spring】体系结构
Spring框架至今集成了多个模块，这些模块分布在数据访问/集成（Data Access/Integration）、Web层、面向切面的编程（Aspect Oriented Programming，A
阅读更多2024-11-07
SpringBoot健身房管理：技术与实践
目前，界面设计已经成为对软件质量进行评价的一条关键指标，一个好的用户界面可以使用户使用系统的信心和兴趣增加，从而使工作效率提高，JSP技术是将JAVA语言作为脚本语言的，JSP网页给整个服务器端的JA
阅读更多2024-11-07
开源全站第一个Nextron(NextJS+electron)项目--NextTalk：一款集成chatgpt的实时聊天工具
开源一个基于Nextron(NextJS+Electron)的桌面端实时聊天工具。
阅读更多2024-11-07
FreeRTOS | 开中断与临界区(第十四天)
FreeRTOS|开中断与临界区
阅读更多2024-11-07
【青牛科技】应用方案 | D75xx-150mA三端稳压器
D75XX系列是一套三端高电流低压稳压器。它们可以提供 150mA 的输出电流和允许输入电压高达30V。它们有几个固定的输出电压范围为3.0 V至5.0 V。CMOS 技术确保低电压降和低静态电流。虽
阅读更多2024-11-07
Linux编程：DMA增加UDP 数据传输吞吐量并降低延迟
UDP 网络传输常面临高 CPU 占用、传输延迟和丢包等挑战。本文将介绍 DMA 如何优化 UDP 数据包的发送，以提高吞吐量、减少延迟并降低 CPU 占用。
阅读更多2024-11-07