[论文阅读]Generalizable Humanoid Manipulation with Improved 3D Diffusion Policies
Abstract
能够在不同环境中自主操作的类人机器人长期以来一直是机器人学家的目标。然而,类人机器人的自主操作在很大程度上仅限于一个特定的场景,主要是由于难以获得可推广的技能。3d视觉运动policies的最新进展,如3d扩散policy (dp3),已经显示出将这些能力扩展到更野环境的前景。然而,3d视觉运动policies通常依赖于相机校准和点云分割,这给类人机器人等移动机器人的部署带来了挑战。在这项工作中,我们介绍了改进的3d扩散policy (idp3),这是一种新的3d视觉运动policy,消除了这些约束通过利用以自我为中心的 3d 视觉表示。我们证明了idp3使全尺寸类人机器人能够在不同的现实场景中自主执行技能,只使用实验室收集的数据。视频可在人形操作获得。github.io。
I. INTRODUCTION
能够在非结构化环境中执行不同任务的类人机器人长期以来一直是机器人社区的一个重要目标。最近,类人机器人硬件[1]-[5]的发展取得了重大进展。同时,控制这些机器人的视觉模仿学习方法越来越受欢迎,使它们能够自主执行复杂的技能[6]-[11]。然而,这些自主操作技能大多局限于特定的场景[6]-[11],这主要是由于视觉模仿学习方法[12]-[16]的泛化能力有限。
3d视觉运动policies的最新进展显示了将学习到的技能推广到更复杂和多样化的场景的巨大潜力[17]-[21]。其中,3d diffusion policy (dp3, [17]) 在不同的实施例中在各种模拟和现实世界的任务中都是有效的。这些包括使用灵巧手[17]或移动臂[22]、长视距双手操作[10]和四足机器人[23]进行位置操作。尽管 dp3 的普遍性,但它的应用仅限于使用具有校准固定相机的第三人称视图执行的任务,这主要是由于需要准确的相机校准和点云分割,这两者都是 3d 视觉运动 policies 的固有挑战。
在这项工作中,我们的目标是使用 3d 视觉运动 policies 开发可推广的类人机器人操作技能。为了解决现有3d视觉运动policies对类人机器人的局限性,我们提出了一种新的3d模仿学习方法,该方法利用摄像机帧中的自我中心3d表示,消除了摄像机标定和点云分割的需要。此外,我们引入了几个修改来提高 idp3 的有效性
对于数据收集,我们设计了一个全身远程操作系统,将人体关节映射到全尺寸类人机器人。与常见的双手动操作系统不同,我们的远程操作结合了腰自由度和主动视觉,极大地扩展了机器人的操作工作空间,特别是在处理不同高度的任务时。
通过广泛的真实世界实验和消融研究,我们证明了 iDP3 在不同的场景中表现出显着的泛化,并显示出强大的视图不变性,同时具有很高的有效性。
我们的主要贡献总结如下:
- 我们引入了改进的 3d 扩散 policy (idp3),这是一种可应用于任何机器人的 3d 视觉运动 policy,支持以自我为中心的视图和第三人称视图,同时实现高效率和强大的泛化能力。
- 我们为类人机器人开发了一个全身远程操作系统,实现了人类的高效数据收集。
- 我们证明了我们部署在类人机器人上的policy可以成功地将接触丰富的操作技能推广到广泛的现实场景中,数据在单个场景中收集。
II. RELATED WORK
A. Visuomotor Policy Learning
经典方法依赖于状态估计来解决机器人操作任务[24]。最近,以端到端的方式学习视觉运动policy来解决机器人问题[12]、[17]、[25]-[28]。主要有两种途径:模仿学习[12]、[15]-[21]、[29]-[34]和模拟到真实的强化学习[35]-[44]。这项工作侧重于视觉模仿学习,因为它在完成复杂、多样化和长视距任务方面的优势。
基于图像的模仿学习方法,如扩散policy[12],取得了显著的成功[10],[17],[22],[30],[45],而它们有限的泛化能力限制了它们在复杂现实世界环境中的应用。最近的几项工作旨在解决这些限制 [17]、[22]、[45]-[47]。其中,3d扩散policy (dp3,[17])对各种机器人任务[10]、[11]、[22]、[23]具有显著的泛化能力和广泛适用性。尽管如此,3d视觉运动policies本质上依赖于精确的相机校准和细粒度的点云分割[17],[18],[21],[39],[47],这限制了它们在类人机器人等移动平台上的部署。这项工作解决了这一重要问题,并将3d视觉运动policies的应用扩展到更一般的设置
此外,最近的几项工作已经证明了类似于我们的能力。maniwhere[37]通过大规模模拟数据实现了真实世界的场景泛化。然而,由于显着的 sim-to-real 差距,它们仅显示诸如在看不见的场景中推送之类的任务,而不是像拾取和放置这样的接触丰富的任务。机器人效用模型[48]还通过模仿学习将技能推广到新环境中,而他们必须使用从20个场景收集的数据进行场景泛化,而我们只使用1个场景。vista[47]使用视图合成模型展示了令人印象深刻的视图泛化。与他们的复杂 pipeline 相比,我们发现我们的以自我为中心的 3d 表示自然可以实现稳健的视图不变性。
B. Humanoid Robot Learning
人形机器人在复杂的现实世界环境中自主执行各种技能一直是机器人技术的核心目标。最近,基于学习的方法在实现这一目标方面取得了可喜的进展,特别是在运动[36]、[49]-[52]、操纵[9]、[11]、[53]和局部操纵[6]-[8]、[54]等领域。虽然有几项工作已经成功地证明了类人在非结构化的现实世界环境中的运动[36]、[49]、[50],但在看不见的环境中的操纵技能在很大程度上仍未得到探索[6]、[8]、[9]。在这篇论文中,我们向前迈出了重要的一步,展示了重新调整用途的3d视觉运动器policy框架如何使人形机器人能够在看不见的现实世界场景中执行操纵任务。
III. IMPROVED 3D DIFFUSION POLICY
3D Diffusion Policy (DP3, [17])
是一种有效的3d视觉运动器policy,它将稀疏点云表示与扩散policies相结合。尽管dp3在各种操作任务中显示出令人印象深刻的结果,但由于其固有的对精确相机校准和细粒度点云分割的依赖性,它不能直接部署在人形机器人或移动操纵器等通用机器人上。此外,dp3的准确性需要进一步改进,以便在更复杂的任务中有效地执行。下面,我们将详细介绍实现目标改进的几个修改。由此产生的改进算法被称为改进的3d扩散policy(idp3)。
Egocentric 3D Visual Representations.以自我为中心的3D视觉表现
DP3利用世界帧中的3D视觉表示,可以轻松分割目标对象[17],[53]。然而,对于像类人机器人这样的通用机器人,相机支架不是固定的,这使得相机校准和点云分割不切实际。为了解决这个问题,我们建议直接使用相机帧的3D表示,如图3所示。我们将这类3D表示称为以自我为中心的3D视觉表示。
图3:idp3在相机帧中使用3d表示,而包括dp3[17]在内的其他最新3d policies的3d表示在世界帧中,这依赖于精确的相机校准,不能扩展到移动机器人
Scaling Up Vision Input
利用以自我为中心的3D视觉表示在消除无关的点云(如背景或桌面)方面存在挑战,特别是在不依赖基础模型的情况下。为了缓解这一问题,我们提出了一个简单但有效的解决方案:扩大视觉输入。我们没有像以前的系统[17]、[22]、[53]那样使用标准稀疏点采样,而是显著增加了采样点的数量来捕获整个场景。尽管这种方法很简单,但在我们的实际实验中证明是有效的。
Improved Visual Encoder.
我们将DP3中的MLP视觉编码器替换为金字塔卷积编码器。我们发现,当从人类数据中学习时,卷积层比全连接层产生更平滑的行为,并且结合不同层的金字塔特征进一步提高了准确性。
Longer Prediction Horizon.
人类专家的抖动和嘈杂的传感器在从人类演示中学习方面表现出很大的困难,这导致DP3在短期预测方面举步维艰。通过延长预测期,我们有效地缓解了这个问题。
Implementation Details.
为了优化,我们使用AdamW为iDP3和所有其他方法训练了300个epoch[55]。对于扩散过程,我们使用DDIM的50个训练步骤和10个推理步骤[56]。对于点云采样,我们将DP3[17]中使用的最远点采样(FPS)替换为体素采样和均匀采样的级联,这确保了采样点以更快的推理速度覆盖3D空间。
IV. HUMANOID MANIPULATION WITH IMPROVED 3D DIFFUSION POLICY
在本节中,我们将介绍部署在全尺寸人形机器人上的真实世界模仿学习系统。图2展示了该系统的概览。
图2:我们的系统概述。我们的系统主要由四个部分组成:仿人机器人平台、数据采集系统、视觉运动器policy学习方法和现实部署。在学习部分,我们开发了改进的3d扩散policy(idp3)作为通用机器人的视觉运动器policy。
A. Platform
Humanoid Robot.
我们使用傅里叶GR1[5],一个全尺寸的人形机器人,配有两只Inspire手[57]。我们使整个上半身(头、腰、手臂、手)总共有25个自由度(DoF)。我们禁用下半身以保持稳定,并使用推车进行运动。
LiDAR Camera.
为了捕捉高质量的3D点云,我们使用了固态LiDAR相机RealSense L515[58]。摄像头安装在机器人头部,以提供自我中心视觉。先前的研究表明,深度感测精度较低的相机,如RealSense D435[59],可能会导致DP3[17]、[60]的性能欠佳。然而,值得注意的是,即使是RealSense L515也不能产生完全精确的点云。
Height-Adjustable Cart.
将操作技能推广到现实世界环境的一个主要挑战是场景条件的巨大变化,特别是桌面高度的不同。为了解决这个问题,我们使用了一个高度可调的推车,消除了对复杂全身控制的需要。虽然这简化了操作过程,但我们相信,一旦全身控制技术变得更加成熟,我们的方法也会同样有效
B. Data
Whole-Upper-Body Teleoperation.
为了远程操作机器人的上半身,我们使用了apple vision pro(avp,[61]),它可以精确跟踪人手、手腕和头部的姿势[62]。机器人使用松弛ik[63]精确地跟随这些姿势。我们还将机器人的视觉流式传输回avp。与[9]不同,我们在远程操作pipeline中加入了腰部,从而实现了更灵活的工作空间。
Latency of Teleoperation.
使用激光雷达传感器会显著占用车载计算机的带宽/CPU,导致远程操作延迟约为0.5秒。我们还尝试了两个激光雷达传感器(一个额外安装在手腕上),这会引入极高的延迟,从而使数据收集变得不可行。
Data for Learning.
我们在遥操作过程中收集观测动作对的轨迹,其中观测由两部分组成:1)视觉数据,如点云和图像,2)本体感知数据,如机器人关节位置。动作由目标关节位置表示。我们还尝试使用末端效应器姿势作为本体感觉/动作,发现性能没有显著差异。
C. Learning and Deployment
我们根据收集到的人体演示训练idp3。值得注意的是,我们不依赖于前面提到的相机校准或手动点云分割。因此,我们的idp3 policy可以无缝转移到新场景,而不需要额外的工作,如校准/分割
V. EXPERIMENTS AND ANALYSIS
为了评估我们系统的有效性,我们的实验将使用Pick&Place的基本任务作为我们分析的主要基准。
A. Experiment Setup
Task Description.
在这个任务中,机器人抓住一个轻便的杯子并将其移到一边。具有灵巧手的人形机器人面临的挑战是杯子的大小与手相似;因此,即使是很小的错误也会导致碰撞或错过抓握。这项任务需要比使用平行夹具更高的精度,平行夹具可以打开得更宽以避免碰撞。
Task Setting.
我们在四种设置下训练拾取和放置任务:{1st-1,1st-2,3rd-1,3rd-2}。“1st”使用以自我为中心的观点,“3rd”使用第三人称观点。后面的数字代表用于训练的演示次数,每次演示由20轮成功执行组成。训练数据集保持较小,以突出方法之间的差异。对象位置在10cm×20cm的区域内随机采样。
评估指标。
我们为每种方法运行三集,每集由1000个动作步骤组成。总的来说,每种方法都经过了大约130次试验的评估,确保了对每种方法的彻底评估。我们记录成功抓握的次数和抓握尝试的总次数。成功的抓取计数反映了policy的准确性。总尝试次数可作为衡量policy平滑度的指标,因为抖动的policies往往徘徊不前,尝试次数很少,正如我们在实验中观察到的那样。
B. Effectiveness of iDP3
我们将idp3与几个强基线进行了比较,包括:
a)使用resnet18编码器的dp:diffusion policy[12];
b) dp(❄r3m):带有冻结r3m[64]编码器的扩散policy;
c) dp(✶r3m):带有微调r3m编码器的扩散policy;
d)idp3(dp3编码器):使用dp3编码器的idp3[12]。
所有基于图像的方法都使用与idp3相同的policy骨干以及随机裁剪和颜色抖动增强,以提高鲁棒性和泛化能力。rgb图像分辨率为224×224,根据realsense相机的原始图像调整大小。
表I中显示的结果表明,iDP3明显优于vanilla DP、使用冻结R3M编码器的DP和使用DP3编码器的iDP3。然而,我们发现,具有微调R3M的DP是一个特别强的基线,在这些设置中优于iDP3。我们假设这是因为与从头开始训练相比,微调预训练模型通常更有效[26],而且目前还没有类似的机器人预训练3D视觉模型。
尽管DP+微调的R3M在这些设置中更有效,但我们发现基于图像的方法对特定场景和对象过拟合,无法推广到野生场景,如第六节所示。
此外,我们认为idp3仍有改进的空间。由于传感硬件的限制,我们目前的3d视觉观测非常嘈杂。我们预计,更精确的3d观测可能会使3d视觉运动器policies达到最佳性能,如模拟[17]所示。
C. Ablations on iDP3
我们对DP3的几种修改进行了消融研究,包括改进的视觉编码器、缩放的视觉输入和更长的预测范围。表II给出的结果表明,如果没有这些修改,DP3要么无法从人类数据中有效学习,要么准确性显著降低。
表二:iDP3上的消融。结果表明,从iDP3中删除某些关键修改会显著影响DP3的性能,导致从人类数据中学习失败或准确性降低。所有方法都经过了100多次试验的评估,确保了现实世界评估中的随机性较小。
更具体地说,我们观察到
1)我们改进的视觉编码器可以提高policy的平滑度和精度;
2) 缩放的视觉输入是有帮助的,而在我们的任务中,随着points的增加,性能会饱和;
3) 适当的预测范围至关重要,没有这个范围,dp3就无法从人类演示中学习。
此外,图7显示了idp3的训练时间,与diffusion Policy相比,训练时间显著缩短。即使点云的数量增加到dp3的几倍[17],也能保持这种效率。
图7:训练时间。由于使用了3d表示,即使在我们扩大了3d视觉输入后,idp3也比diffusion Policy(dp)节省了训练时间。当demonstrations增加时,这一优势变得更加明显。
VI. CAPABILITIES
在本节中,我们将展示iDP3在人形机器人上的更多功能。我们还对iDP3和DP(✶R3M)(本节中缩写为DP)进行了更多比较,并表明iDP3更适用于具有挑战性和复杂性的现实世界。结果见表三。
表三:iDP3的能力。虽然iDP3保持了与DP(✶R3M)(缩写为DP)相似的效率,但它以出色的泛化能力脱颖而出,使其非常适合现实世界的部署。为了在新场景中进行评估,我们使用了图6所示的厨房场景,其中还包括看不见的物体。我们不在通用设置中测试擦除Wipe,因为擦除Wipe在所有方法中都有很高的成功率。
Tasks.
我们选择了三个任务,即拾取和放置、倾倒和擦拭,以展示我们系统的功能。我们确保这些任务在日常生活中很常见,并且对人类有用。例如,Pour 经常在餐馆进行,擦拭在家庭清洁桌子时进行。
Data.
我们为每个任务收集10个演示。对于拾取和放置任务,每个演示包含10个拾取和放置轨迹。在每个演示中,对象姿势是随机的,限制在10cm×10cm的区域内。我们不会在更大的区域收集数据,因为我们发现更大的任务区域只需要更多的数据[65]。此外,由于使用AVP,收集大规模数据是不可行的。
Effectiveness
如表三所示,iDP3和DP在具有训练对象的训练环境中都取得了很高的成功率。
Property 1: View Invariance.属性1:视图不变性
我们以自我为中心的3D表示展示了令人印象深刻的视图不变性。如图8所示,即使在大的视图变化下,iDP3也能始终如一地抓取对象,而DP甚至很难抓取训练对象。DP仅在视图发生微小变化时偶尔会成功。值得注意的是,与最近的作品[22]、[45]、[47]不同,我们没有纳入等效性或不变性的具体设计。
图8:iDP3的视图不变性。我们发现,以自我为中心的3D表示具有令人惊讶的视图不变性。这里DP对应于表I中的DP(✶R3M),这是我们拥有的最强的基于图像的基线
Property 2: Object Generalization.
我们评估了训练杯旁边的新型杯子/瓶子,如图9所示。虽然DP由于使用了颜色抖动增强,偶尔可以处理看不见的物体,但成功率很低。相比之下,由于使用了3D表示,iDP3可以自然地处理各种对象。
Property 3: Scene Generalization.
我们在各种真实场景中进一步部署了policy,如图1所示。这些场景都在实验室附近,没有一个是精心挑选的。现实世界比实验室中使用的受控桌面环境更嘈杂、更复杂,导致基于图像的方法的准确性降低(图6)。与dp不同,idp3在所有场景中都表现出惊人的鲁棒性。此外,我们在图4中提供了2d和3d观测的可视化。
图4:以自我为中心的二维和三维观测的可视化。此图突出了不同现实世界场景的复杂性。视频可以在我们的网站上找到。
VII. CONCLUSIONS AND LIMITATIONS
Conclusions
这项工作提出了一种模仿学习系统,该系统使全尺寸人形机器人能够将实际操作技能推广到不同的现实世界环境中,并使用仅在实验室收集的数据进行训练。关键是改进的3d扩散policy(idp3),这是一种用于通用机器人的新型3d视觉运动器policy。通过广泛的实验,我们展示了idp3在现实世界中令人印象深刻的泛化能力。
Limitations
1) 使用avp进行远程操作很容易设置,但对人类远程操作员来说很累,使得数据扩展不可行。2) 深度传感器产生噪声点云,限制了idp3的性能。3) 由于使用avp进行远程操作,收集精细的操作技能(如转动螺钉)很耗时。4) 我们避免使用机器人的下半身,因为保持平衡仍然具有挑战性。总的来说,扩大高质量数据是主要的瓶颈。未来,我们希望探索如何利用更多高质量的数据来扩大3d视觉运动器policies的训练规模
原文地址:https://blog.csdn.net/qq_33673253/article/details/143449215
免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!