自学内容网 自学内容网

DiffusionVLA:打造高泛化性、高精度的机器人基础模型!

  1. 论文信息标题:Diffusion-VLA: Scaling Robot Foundation Models via Unified Diffusion and Autoregression作者:Junjie Wen, Minjie Zhu, Yichen Zhu, Zhibin Tang, Jinming Li, Zhongyi Zhou, Chengmeng Li, Xiaoyu Liu, Yaxin Peng, Chaomin Shen, Feifei Feng机构:Midea Group、East China Normal University、Shanghai University原文链接:https://arxiv.org/abs/2412.03293代码链接:https://diffusion-vla.github.io/1. 导读在本文中,我们提出了一个新的框架,它无缝地结合了自回归模型和学习视觉运动策略的扩散模型。我们方法的核心是下一个令牌预测目标,使模型能够在当前观察的上下文中有效地推理用户的查询。随后,附加一个扩散模型以生成鲁棒的动作输出。为了通过自推理来增强策略学习,我们引入了一种新颖的推理注入模块,该模块将推理短语直接集成到策略学习过程中。整个框架简单灵活,易于部署和升级。我们使用多个真实的机器人进行了大量的实验来验证扩散算法的有效性。我们的测试包括一项具有挑战性的工厂分类任务,其中DiffusionVLA成功地对对象进行了分类,包括那些在培训期间没有看到的对象。我们观察到推理模块使得模型是可解释的。它允许观察者理解模型的思维过程,并识别政策失败的潜在原因。此外,我们在一个零命中率的垃圾箱选择任务上测试了DiffusionVLA,在102个以前看不到的对象上实现了63.7%的准确率。我们的方法表现出对视觉变化的鲁棒性,例如干扰物和新的背景,并且容易适应新的实施例。此外,扩散病毒可以遵循新的指令,并保持对话能力。值得注意的是,DiffusionVLA数据效率高,推理速度快;我们最小的扩散2B在单个A6000 GPU上运行82Hz,可以针对复杂任务从不到50次演示开始训练。最后,我们将模型从2B扩展到72B参数,展示了随着模型大小的增加而提高的泛化能力。2. 引言自回归模型在大型语言模型中占据主导地位,通过顺序预测离散标记来运作,其中每个标记的生成都依赖于前一个标记。这种方法也影响了机器人领域,推动了视觉-语言-动作(Vision-Language-Action,VLA)模型的发展,该模型将动作预测框架化为下一个标记预测任务。尽管诸如RT-2和Open-VLA等模型已经取得了显著成功,但它们面临着固有的局限性。首先,将连续动作数据离散化为固定大小的标记会破坏动作的连贯性和精确性。其次,噪声预测(Noise-based Predictive Text,NTP)对于动作生成来说本质上是不高效的,尤其是在性能至关重要的实时机器人应用中。同时,鉴于扩散模型在内容生成方面的成功,过去两年中,基于扩散模型来学习视觉运动策略的方法获得了广泛关注。许多方法通过将动作序列生成建模为去噪过程,在操控任务中表现出了强大的性能。与基于NTP的VLA模型相比,这种方法更好地捕捉了机器人动作的多模态特性,并能够实现更快的序列生成。然而,尽管扩散模型在政策学习方面具有优势,但它们缺乏对于VLA模型有效解决复杂任务至关重要的推理能力,而这一能力显然提升了大型语言模型(Large Language Models,LLMs)。这促使我们提出以下问题:我们能否将双方的优点结合起来,特别是自回归模型的推理能力和扩散模型在高频动作生成方面的稳健性?在本文中,我们提出了一个名为DiffusionVLA(简称DiVLA)的统一模型,该模型将自回归与扩散模型相结合。自回归部分负责查询的推理,而扩散模型则控制机器人。具体而言,DiVLA基于一个预训练的视觉-语言模型(Vision-Language Model,VLM),保留了其基于文本的推理的自回归能力。我们通过集成一个通过去噪过程促进学习机器人动作的扩散模型来扩展这一基础。这种设置使DiVLA能够在机器人环境中实现语言驱动的推理和稳健的动作生成。然而,仅仅将这些元素结合起来并不能充分发挥推理潜力,因为逻辑推理和可执行的机器人策略之间往往存在隐式差距。为了弥合这一差距,我们提出了一个推理注入模块,该模块重用推理输出,并将其直接嵌入到策略头中,从而为策略学习过程增添了明确的推理信号。这一创新使我们能够直接将推理融入动作生成,提高了模型在各种场景下的灵活性、稳健性和泛化能力。3. 效果展示我们提出的扩散模型统一了自回归和扩散建模,以实现自推理和机器人策略学习。该方法有效地概括了视觉变化,支持零镜头箱拾取,适应新的机器人形态,执行视觉问答,并以高速生成动作。在这里插入图片描述
  2. 主要贡献我们的实验证实,DiVLA具有以下优势:• 快速推理速度:DiVLA-2B在单个A6000 GPU上实现了82Hz的推理速率,而DiVLA-7B则以42Hz的速度运行,确保了高需求环境下的实时响应能力。• 增强的视觉泛化能力:DiVLA不受视觉干扰或新颖背景的影响,在视觉动态环境中表现出稳健性。推荐课程:国内首个面向具身智能方向的理论与实战课程。• 可泛化的推理能力:DiVLA能够准确识别和分类以前未见过的对象,展示了其在新颖输入上泛化推理的能力。• 对新颖指令的适应能力和对话能力:我们的方法能够解释和执行复杂的新颖指令,同时保持对话流畅性,在交互场景中提供了多功能响应范围。• 对其他实体的泛化能力:DiVLA可以轻松微调以部署在真实的双臂机器人上,通过最少的调整即可实现高性能,证明了其在不同机器人实体上的适应性。• 可扩展性:我们提供了一个可扩展的模型系列——DiVLA-2B、7B和72B,证明了随着模型大小的增加,泛化能力和性能也会提高,符合既定的缩放定律。5. 方法我们认为,DiVLA为学习和泛化机器人策略提供了一个新颖的视角。我们的最终目标是创建一个统一的框架,将擅长预测用于推理的语言序列的自回归模型与在生成机器人动作方面高度有效的扩散模型相结合。开发这样的集成模型面临着重大挑战,关键问题集中在:(i)设计一种能够无缝且高效地整合自回归机制和扩散机制的架构;(ii)利用自生成的推理来增强动作生成,而不增加推理计算开销。给定任何交替出现的图像、文本和视频序列,我们首先使用SigLIP将图像编码为密集视觉特征。然后,这些编码通过一个Transformer转换为固定数量的N个视觉嵌入。值得注意的是,机器人学习中的典型视觉输入通常包括多个摄像头视图。为了处理这一点,我们对每个视图应用了共享的SigLIP视觉主干,然后将得到的视觉标记连接起来。对于视觉-语言处理,我们利用了Qwen2-VL,这是一种最先进的视觉-语言模型,有三种尺寸可供选择:2B、7B和72B参数。我们使用公开发布的检查点初始化了VLM主干。由于我们将视觉-语言理解与动作生成解耦,因此也可以使用任何其他预训练的VLM作为主干,这使得整体架构灵活,能够适配先进的新模型。动作解码器。我们采用潜在扩散模型来将视觉和指令嵌入解码为动作。具体来说,我们使用大型语言模型(LLM)生成一组标记,并将这些标记作为动作解码的条件输入送入扩散模型中。我们的架构遵循标准扩散策略[10]的设计,并随机初始化模型权重。该组件还融合了来自大型语言模型的推理,我们将在下文详细描述。在动作解码器底部的最后一层附加了一个多层感知机(MLP)层,以预测机器人的关节空间。如果进化出多个实体,我们不会复制单独的动作解码器,而是简单地初始化一个新的MLP层用于训练和评估。这一步骤确保了从预训练数据中获取的知识得以保留,从而能够快速适应新的实体。推理注入模块。我们方法的核心在于将显式推理引入视觉-语言-动作(VLA)模型中。与大多数需要递归设置(将推理输出转换为后续模型运行的输入)的自回归VLA不同,我们的方法提出了一种更高效、更简洁的推理集成方式。通过将推理直接嵌入策略模型中,我们避免了迭代输入输出循环的计算和操作复杂性,实现了更快、更无缝的推理融合。我们的推理注入模块通过获取推理组件标记化输出的最终嵌入,并通过特征线性调制(FiLM)直接将其注入策略模型中来实现这一功能。这种注入技术受到RT-1和YAY中方法的启发,使我们能够根据推理信号调制策略网络的层。我们称之为“注入”,因为在我们的设计中,策略网络主要关注动作特定的标记,而推理模块则作为辅助增强,提供上下文深度而不主导主要的决策流程。这种方法确保了推理不仅在策略模型训练期间存在,而且被积极利用。6. 实验结果我们从一种标准设置开始,在该设置中,模型会在多个任务上进行训练,并根据不同的用户查询来完成每个任务。我们设计了五个任务:物体选择、翻转竖直放置的锅、将立方体放入指定盒子、将杯子放在盘子上以及将立方体放入盒子内。这些任务的详细描述见附录。实验结果可参见表1。我们将我们的方法与Diffusion Policy、TinyVLA、Octo和OpenVLA进行了比较。注意,Octo和OpenVLA都在OXE上进行了预训练,而OXE的数据集规模是我们的预训练数据集的25倍。对于视觉变化的泛化能力。我们进一步在包含视觉变化的多任务设置中评估了我们的方法,以评估其在多样且动态环境中的鲁棒性和适应性。在这里插入图片描述
    具体来说,我们引入了三个具有挑战性的场景,旨在测试模型处理视觉变化的能力:1) 在周围添加额外的干扰物,以增加视觉杂乱程度和复杂性;2) 更改背景,以测试模型对场景上下文变化的适应力;3) 实施彩色照明效果,以引入不同的光照和色调。这些场景如图5所示,以说明每种变化对视觉环境的影响。实验结果如表1所示。我们对这些场景的评估结果表明,尽管所有方法都因这些视觉变化而性能下降,但我们的方法在五个不同任务中始终保持着最高的平均成功率。这一结果凸显了模型固有的鲁棒性和适应性,尽管在训练过程中没有采用任何特定的数据增强技术。我们评估了DiVLA在工业环境中的能力,在该环境中,机器人需要将物品按类别分拣到一个大盒子内的指定区域。具体来说,我们将物品分为四类:(1)玩具车、(2)针织手套、(3)毛绒玩具和(4)内六角扳手。提供的语言指令是“将所有物品放入对应的区域”。我们共收集了500条轨迹作为训练数据。只有当机器人成功抓取物体并将其放置在正确区域时,才认为任务成功。实验设置如图2所示。这项任务带来了多项挑战,既需要精确抓取物体,又需要准确识别类别。我们在简单和困难两种难度设置下评估了我们的方法。在简单模式下,桌上放置的物品少于5个,而在困难模式下,随机放置6到11个物品。在这里插入图片描述
    此外,这些场景中既包含已见过的物体,也包含未见过的物体。在杂乱场景中,物品可能会重叠或随机分布在桌子上,从而增加了分拣任务的复杂性。实验结果如图3所示。在所有实验设置中,DiVLA均表现出稳健的性能,平均成功率为66.2%。而其他方法随着场景复杂度的增加(即物体数量和杂乱程度增加),性能显著下降,尤其是在高度杂乱的混合场景中,DP的成功率急剧下降至9.2%,而DiVLA仍保持了60%的较高成功率。这一持续的高性能凸显了我们方法在处理复杂且动态的真实世界场景方面的能力。由于我们的模型会生成带有自然语言推理的输出,因此我们可以通过观察其推理短语来了解模型在“思考”什么。在这里插入图片描述
    例如,如图6所示,模型识别出一辆玩具车并决定将其捡起。如果我们进行干预,将一把内六角扳手放在夹持器中,推理短语就会从“抓取玩具车”变为“抓取内六角扳手”,从而使模型能够适应并准确分拣物品。这种动态推理使模型的决策过程更加透明和可解释。推理注入模块还从推理自我修正中受益,从而使机器人的动作更加稳健。识别和分拣未见过的物体。我们观察到,我们的模型能够通过名称识别未见过的物体。当我们将四个之前未见过的物体(一只毛绒猫玩具、一副绿色手套、一辆深色玩具车和一把螺丝刀)放在盘子上时,模型成功识别出前两个物体为“棕色毛绒猫”和“绿色手套”,并正确地将它们分拣出来。对于右侧剩下的两个无法识别的物体,模型将它们标记为“黑色物体”和“物体”。尽管它未能对这些无法识别的物品进行分拣,但我们的模型仍表现出在识别物体方面的泛化能力,并能有效地将这些识别结果转化为适当的动作。在这里插入图片描述
  3. 总结在本研究中,我们提出了DiVLA,这是一种最先进的视觉-语言-动作模型,在模拟环境和真实世界场景中(包括单臂和双臂机器人)均表现出色。我们方法的核心在于将下一个标记预测目标和扩散模型相结合:前者用于任务推理,后者用于动作预测。我们引入了一个推理重用模块来增强动作生成,并实现了视图自适应标记化以降低计算成本。通过在大量模拟环境和多种真实世界应用中的广泛评估,我们证明了DiVLA的性能优于多个最先进的机器人模型。此外,我们还展示了DiVLA具有强大的泛化能力,能够有效适应新的指令、任务和环境。我们的研究为设计VLA模型提供了一种新的视角,鼓励重新思考如何重用推理来促进端到端策略学习。

原文地址:https://blog.csdn.net/weixin_44887311/article/details/144364863

免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!