自学内容网 自学内容网

大模型驱动机器狗——从UMI on Legs到Helpful DoggyBot:分别把机械臂装到机器狗背上、夹爪装到机器狗嘴里

前言

今年十一7天假期期间,一半的时间都在改本博客内的上一篇文章《从Fast-UMI到Diff-Control:分别改进UMI的硬件及其所用的Diffusion policy(含ControlNet详解)》,改完之后,接下来计划要写的博客包括且不限于

  • 第1-2篇,大模型提炼idea、论文生成的实现关键
  • 第3篇,ALOHA 2和ALOHA Unleashed
  • 第4-5篇,OpenAI o1、llama 3.2
  • 第6篇,视频内容理解
  • 第7-10篇,GraghRAG、lerobot、序列并行、vLLM

然10.7日晚,又无意中看到了「UMI on Legs和Helpful DoggyBot」这两个工作,前者把UMI机械臂放到机器狗背上(适合我司之前去一个客户机房的场景),后者把夹爪放到机器狗嘴里

于此,本文来了,且我强烈的希望,在我司「七月在线」早日产生有着世界级影响力的工作、产品

第一部分 UMI on Legs:把UMI机械臂装到机器狗背上

24年7月,来自斯坦福大学、哥伦比亚大学、Google deepmind的研究者Huy Ha, Yihuai Gao, Zipeng Fu, Jie Tan, Shuran Song(标着下划线的是之前moblie aloha的一作,标粗的是之前UMI工作的指导老师),发布了一篇论文《UMI on Legs: Making Manipulation Policies Mobile with Manipulation-Centric Whole-body Controllers》,相当于把UMI机械臂装到了机器狗的背上

1.1 整体概览:腿式机器人的通用操控界面的方法/原理

1.1.1 UMI-on-Legs的技术架构:行为克隆下的扩散策略 + RL全身控制器

UMI-on-Legs由两个主要组件组成:

  1. 一个基于扩散的高级操控策略[即Diffusion policy],该策略以腕部安装的摄像头视图作为输入,并在摄像头坐标系中输出末端执行器姿态目标序列
  2. 一个低级全身控制器,通过输出腿部和手臂的关节位置目标来跟踪末端执行器姿态目标。我们训练该操控系统

使用 UMI 的手持式抓取数据收集设备在现实世界中收集数据的策略,并使用大规模并行模拟器 [3- Isaac gym: High performance gpu-based physics simulation for robot learning] 完全在模拟环境中训练 WBC

作者团队选择使用任务框架末端执行器轨迹作为接口具有以下优点:

  1. 直观演示:通过使用末端执行器轨迹而不是机器人特定的低级动作,允许非专业用户使用像UMI 这样的手持设备进行直观的任务演示
  2. 预览视野中的高层意图:通过对未来目标的预览视野,整体身体控制器可以预判即将到来的动作。例如,如果即将出现高速抛掷,机器人应相应地做好准备。同时,如果目标在手臂的可及范围内移动,身体应倾斜而不是迈步,以避免末端执行器晃动
  3. 在任务框架中的精确且稳定的操控:与大多数使用身体框架跟踪的腿式操控系统不同,该控制器在任务空间中进行动作跟踪,如下图所示

    该空间在基座移动时仍然保持不变,从而实现精确且稳定的操控
  4. 异步多频率执行:该接口定义了一个自然的推理层次结构,允许低频操控策略(1-5Hz)与高频低级控制器(50Hz)协调,以处理截然不同的传感器和推理延迟
  5. 兼容任何基于轨迹的操作策略:接口支持任何基于轨迹的操作策略的即插即用 [1,38,41,43,47,49]
    随着在多样化数据集上训练的策略的兴起 [43–47],以操作为中心的WBC可以加速现有“桌面”操作技能向“移动”操作的移植

1.1.2 使用行为克隆的操控策略

根据Chi等人的默认配置,作者使用U-Net架构扩散策略,如下图a所示

且结合DDIM调度器和预训练的CLIP视觉编码器。同时,使用64的较长动作范围,为低级控制器提供更多的未来信息

  1. 在杯子重排任务中,直接使用UMI的杯子重排检查点
  2. 对于推和扔的任务,从头开始收集数据并训练扩散策略

1.1.3 基于强化学习的全身控制器

为了跟踪从操作策略预测的末端执行器轨迹,作者建议在模拟中使用强化学习训练一个全身控制器,以推断手臂和腿的关节目标。值得注意的是,设置一个模拟来跟踪这些操作末端执行器轨迹并不需要设置操作任务和环境。这个设计大大缓解了使用模拟数据的一个关键瓶颈

1.2 深入细节:基于RL的全身控制器实现步骤

1.2.1 任务框架轨迹跟踪操控轨迹

  • 先前的工作[8,10–12]通常在身体框架中采样目标末端执行器姿势来训练他们的全身控制器(WBCs),这简化了策略优化,但没有训练控制器协调全身以补偿身体运动和扰动的技能,如下图右下角所示

    在操控过程中手臂动量导致基座发生显著移动的场景中(即,轻量级基座或动态手臂运动),这个问题会被放大
  • 相比之下,作者训练他们的控制器在任务框架中跟踪姿势轨迹,如下图a所示,这种形式化方法教会手臂

    通过补偿和消除机体运动或震动,保持其末端执行器在任务框架中的姿态。 为了为控制器提供相关的参考轨迹,我们使用了通过UMI [1] 收集的轨迹
     

1.2.2 观测空间

观测空间包括机器人的18个关节位置和速度、底座的方向和角速度、先前的动作,以及通过操控策略推断的末端执行器轨迹

  1. 作者使用一个3D向量表示末端执行器的位置,并使用6D旋转表示其姿态,且以20ms的间隔从当前时间的-60ms到60ms密集采样目标姿态,这为控制器提供当前速度和加速度的信息
  2. 此外,还包括未来1000ms的目标,这有助于控制器在必要时准备迈步

1.2.3 奖励

任务目标通过最小化位置误差\epsilon_{\mathrm{pos}}和方向误差\epsilon_{\text {orn }}来奖励策略,以达到目标姿态

\exp \left(-\left(\frac{\epsilon_{\mathrm{pos}}}{\sigma_{\mathrm{pos}}}+\frac{\epsilon_{\mathrm{om}}}{\sigma_{\mathrm{om}}}\right)\right)

其中,\sigma为根据精度要求调整的缩放项,在这种公式中,位置和方向的项是交织在一起的

  1. 作者观察到,这比将位置和方向的项分开要产生更理想的行为,因为分开的情况下策略只能在位置或方向上达到高精度
  2. 且他们还观察到,位置和方向的\sigma curriculum对于在训练的早期阶段促进探索是必要的,同时在后期阶段迫使策略达到高精度「We also observed that a σ curriculum for both positionand orientation is necessary to enable exploration during the early stage of training while forcing thepolicy to achieve high precision in the later stages
    且在主要任务奖励的基础上,遵循常见的惯例[7–9,12],并包含额外的正则化和shaping terms
    On top of the main task reward, we follow commonconventions [7–9, 12] and include extra regularization and shaping terms, detailed in the supp. material.

1.3 系统集成

1.3.1 机器人系统设置

机器人系统由一个12自由度的Unitree Go2四足机器人和一个6自由度的ARX5机械臂组成,二者均由Go2的电池供电

  • 作者为ARX5机械臂定制了Finray夹持器和一个GoPro相机,以匹配UMI夹持器
  • 且全身控制器在Go2的Jetson上运行,而扩散策略推理则通过互联网连接在一台独立的桌面电脑的RTX 4090上运行
  • 同时,安装了一部iPhone用于姿态估计,并通过以太网线将其连接到Jetson

1.3.2 Sim2Real 转移

根据先前的研究,作者在训练过程中对机器人施加随机推力,以实现更好的鲁棒性。且随机化关节摩擦、阻尼、接触摩擦、机身和手臂的质量以及质心

他们还观察到,在训练过程中建模 20 毫秒的控制延迟是至关重要的。为了考虑里程计系统中的噪声,在每个训练过程的中途每 20 秒随机移动机器人

1.3.3 实时可访问的里程计

缺乏实时的机载任务空间跟踪是先前四足机器人操作工作中的一个常见限制。通过假设使用运动捕捉[31]和/或AprilTags[8,11,36]进行外部跟踪,这些系统无法在野外完全自主部署

  1. 在作者的系统中,作者通过在机器人底座上安装一部iPhone来解决这一缺陷。且选择将其安装在后部,以避免在机器人手臂上增加额外重量,防止手臂与手机碰撞,并最大限度地减少运动模糊和视觉遮挡
  2. 与许多现有的鲁棒实时里程计解决方案[13–15]相比,作者的里程计解决方案具有自包含、紧凑的外形,并且仅使用普遍存在的消费电子设备

更多信息,请参见原论文

第二部分 大模型驱动机器狗之Helpful DoggyBot:UMI夹爪装到机器狗嘴里

24年9月底,来自斯坦福大学、UC San Diego的研究者联合发布了大模型驱动机器狗之Helpful DoggyBot,他们是

  1. Qi Wu(此前HumanPlus的三作,关于humanplus,详见此文:HumanPlus——斯坦福ALOHA团队开源的人形机器人:融合影子学习技术、RL、模仿学习)
  2. Zipeng Fu(moblie aloha一作、humanplus一作,关于mobile aloha,详见此文的第三部分)
  3. Xuxin ChengOpen-TeleVision一作,关于Open-TeleVision,详见此文《UC San Diego的三大机器人:AnyTeleop、Open-TeleVision、Bunny-VisionPro——从RGB相机到VR远程控制机器人》的第二部分
  4. Xiaolong Wang(UC San Diego的三大机器人的指导老师,和之前UMI导师Shuran Song一样,也是华人导师,只是Wang在UC San Diego,Song则之前在哥伦比亚大学 现在斯坦福大学)
  5. Chelsea Finn(之前moblie aloha、humanplus的指导老师,你可能没想到的是,她所在的实验室还推出了PPO的替代算法DPO)

如此,今年年初以来 一直持续追踪的作者/团队/实验室,也算在这个工作中 联动了,这种氛围真不错,希望我司也能不断逼近 ​​​

// 待更


原文地址:https://blog.csdn.net/v_JULY_v/article/details/142769965

免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!