自学内容网 自学内容网

机器人学习的革命性突破:普林斯顿提出DPPO,全新的优化扩散策略框架!

导读:

在机器人学习和连续控制任务中,如何有效地微调策略以提高性能是一个关键问题。普林斯顿的新研究介绍了一种新的算法框架——扩散策略策略优化(Diffusion
Policy Policy Optimization,DPPO)研究人员发现DPPO与其他基于扩散的策略的强化学习方法相比,与其他基于扩散的策略的、精细的PG(Policy Gradient,PG)调整相比,在常见的基准上实现了最强的整体性能。©️【深蓝AI】编译

1. 背景简介

随着语言和图像基础模型的发展,大规模预训练加上微调已经成为了常见的方法之一。在机器人策略学习中,虽然基于专家数据的行为克隆是一种主要的预训练范式,但由于专家数据可能存在局限性,强化学习(Reinforcement Learning,RL)成为进一步优化策略性能的重要手段。然而,对于基于扩散模型参数化的预训练策略,如扩散策略(Diffusion Policy),强化学习微调会面临一定挑战。尽管扩散模型在训练稳定性和表示复杂分布方面具有优势,但策略梯度(Policy Gradient,PG)方法被认为在训练基于扩散的策略的过程中,用于连续控制任务时效率较低。

▲图1|DPPO概述©️【深蓝AI】编译

2. DPPO方法介绍

DPPO框架包含两个主要方面。首先是构建两层MDP,它把扩散去噪过程展开为马尔可夫决策过程,使动作可能性明确,进而构建出外层为环境MDP、内层为去噪MDP的两层结构。其次是应用PPO更新,即采用近端策略优化算法对两层MDP进行更新,通过特定优势估计器形式,考虑环境和去噪来有效估计优势函数,实现策略优化。

▲图2|研究人员将扩散策略中的去噪过程视为一个MDP,整个环境可以认为是一个MDP的链路©️【深蓝AI】编译

在微调去噪步骤选择上,研究人员可选择仅微调最后几步如“K’”步而非全部K步,能加快训练速度、减少GPU内存使用且不牺牲性能。在采样微调方面,除了DDPM,还可以采用DDIM,从而减少采样步骤提高效率。扩散噪声调度上,使用余弦调度调整标准差,采样时可调整到较高最小值助于探索,评估时调整到至少0.1提高稳定性。网络架构选择上,研究人员比较了MLP和UNet,MLP设置简单且微调稳定,UNet在预训练和微调不同动作块大小时有优势,DPPO受益于不同动作块大小的预训练和微调。

3. 实验结果与分析

■3.1 在不同基准环境中的性能评估

●与基于扩散的RL算法比较

在OpenAI Gym的三个运动基准任务(Hopper - v2、Walker2D - v2、HalfCheetah - v2)和ROBOMIMIC的四个模拟机器人操作任务(Lift、Can、Square、Transport)上,研究人员将DPPO与多种基于扩散的RL算法进行了比较。结果表明,DPPO在不同任务中表现出一致的性能,具有良好的训练稳定性和较高的微调成功率。在一些具有挑战性的任务中,如ROBOMIMIC的Transport任务,DPPO的性能明显优于其他算法。

▲图3|与其他基于扩散的RL策略对比©️【深蓝AI】编译

●与其他策略参数化比较

在ROBOMIMIC的任务中,研究者将DPPO与常见的RL策略参数化方法,如单峰高斯(unimodal Gaussian)和高斯混合模型(Gaussian Mixture Model)进行了比较。结果显示,无论是在状态输入还是像素输入的情况下,DPPO在性能上都优于这些传统的策略参数化方法。特别是在更具挑战性的Square和Transport任务中,DPPO能够更快地收敛到较高的成功率,并在最终性能上表现出色。

●在FURNITURE - BENCH任务及模拟到真实的迁移评估

研究人员也在FURNITURE - BENCH基准的三个模拟家具组装任务(One - leg、Lamp、Round - table)上评估了DPPO。结果表明,DPPO在所有六个设置中都表现出强大的训练稳定性,并提高了策略性能。在模拟到真实的迁移实验中,研究人员将在模拟的One - leg任务中训练的DPPO和高斯策略部署到物理硬件上进行了zero - shot)测试。结果显示,DPPO在真实世界中的性能显著提高,达到80%的成功率,而高斯策略在硬件上完全失败。

■3.2 消融实验结果

通过实验研究了多个因素对DPPO性能的影响,包括优势估计器的选择,结果显示对于挑战性任务依赖环境状态且独立于去噪动作的价值估计器对性能至关重要;抛开去噪噪声水平对DPPO探索的影响,发现存在保证足够探索且避免过多动作噪声的最佳裁剪点;不同数量微调去噪步骤对性能和运行时间的影响,表明DPPO对少于K步的微调具有鲁棒性且能提高运行时间并保持可比性能;不同水平专家演示数据对DPPO性能的影响,结果是DPPO在不同数量专家演示数据下优于高斯-MLP基线且在GYM环境从无到有训练时实现可比最终性能和样本效率。

4. DPPO性能优势的机制理解

■4.1 结构化的、基于流形的探索

通过在D3IL基准的Avoid环境中的实验,发现DPPO在微调初期能够在专家数据流形附近进行广泛的探索,而高斯和GMM策略的探索则相对缺乏结构化。这种结构化的探索使DPPO能够更好地利用训练数据的流形结构,提高微调效率。然而,在某些情况下,如Lamp环境中,这种结构化的探索可能会受到限制。

■4.2 多步去噪过程带来的训练稳定性

在实验中,通过在微调过程中逐渐添加噪声来干扰动作,发现DPPO在至少使用四个去噪步骤时,性能对噪声具有鲁棒性。这表明多步去噪过程为DPPO提供了训练稳定性,使其能够在面对噪声干扰时保持良好的性能。此外,DPPO在微调长动作块时也表现出更好的训练稳定性。

■4.3 微调策略对动态和初始状态分布扰动的鲁棒性

在对微调后的策略施加动作扰动的实验中,发现DPPO生成的最终策略对动态和初始状态分布的扰动具有很强的鲁棒性。这意味着DPPO能够生成更通用的策略,在不同的初始状态和动态条件下都能保持良好的性能。

5. 总结与未来展望

DPPO是一种用于微调预训练扩散策略的有效算法框架,它结合了策略梯度方法和扩散模型的优势,在各种机器人学习和连续控制任务中表现出了优异的性能。通过实验验证了DPPO在不同基准环境中的有效性,以及其在模拟到真实迁移任务中的强大能力。未来的工作可以进一步探索DPPO在模拟到真实迁移中的应用,特别是在基于视觉的策略预训练于多种不同任务的情况下。此外,研究DPPO如何与其他决策工具相结合,如基于模型的规划和视频预测辅助的决策,也是一个有前景的研究方向。同时,DPPO在机器人领域之外的应用,如在药物设计和文本到图像生成等领域的应用,也值得进一步探索。
©️【深蓝AI】

Ref:
Diffusion Policy Policy Optimization
编译|Scarlett
审核|Los

第二届线下自主机器人研讨会(ARTS)即将召开👇

第二届ARTS报名入口即详情须知
第二届ARTS奖学金通知
ARTS 2024 学术辩论通知抢“鲜”发布


原文地址:https://blog.csdn.net/soaring_casia/article/details/142878564

免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!