机器人前沿--PalmE：An Embodied Multimodal Language Model 具身多模态大(语言)模型

🕗 发布于 2024-07-15 05:49 机器人 人工智能 具身智能大模型

首先解释这篇工作名称Palm-E，发表时间为2023.03，其中的Palm是谷歌内部在2022.04开发的大语言模型，功能类似ChatGPT，只是由于各种原因没有那样火起来，E是Embodied的首字母，翻译过来就是具身多模态大语言模型大模型，我们一般习惯将其称为具身多模态大模型。

何为具身？这个词听起来非常陌生，简单说就是AI+agent（机器人是其中一种agent）的结合，强调的的agent通过与环境互动来获取智能，类似人类获得智能的范式，博主将在之后的博客里做专门篇幅讲解，欢迎大家继续关注，下面开始来详细拆解这篇论文。

Palm-E两大任务：视觉问答(VQA)和具身任务规划

Palm-E用统一的网络架构和训练方式进行多任务，主要包括视觉问答(VQA)和具身任务规划。

具身任务规划

该任务要求大模型能理解人类的语言和意图，还需要机器人观察和操作环境中的物体，以及规划一系列的子目标和动作。其输入是多模态的输入（如文本、图像、触觉信息以及机器人的3D空间状态等），输出可被机器人逐步执行的任务步骤，比如当我们让其去抽屉里拿薯片，Palm-e会输出如下子任务步骤，而后机器人利用其它模块(我们称之为Policy，本工作用了RT1和LAVA这两个Policy来执行这些步骤skill)来逐步执行之：
step1：导航到抽屉；
step2：打开抽屉；
step3：取出薯片；
step4：关闭抽屉；
step5：导航至主人处；
step6：将薯片交给主人；
在这里插入图片描述

VQA

该任务与agent无关，用户输入图片和想问的问题，大模型输出对问题的文字回复。
在这里插入图片描述

贡献

提出和演示一个通用的,可迁移学习的，智能决策的多模态大模型；
训练方面，引入先进的结构思想，使得可以对多模态输入数据进行符号表征，用于训练推理，如neural scene representations ，entity-labeling multimodal tokens.
除了具身推理（embodied reasoner）， PaLM-E也是一个视觉语言方面的通才；
演示了增大模型的规模可以极大地提升多模态大模型性能，特别是减少灾难性遗忘(catastrophic forgetting)

Palm-E网络结构

在这里插入图片描述

整个网络的结构如上所示，多模态数据(图像，文本，物体状态等)经过特定的编码后直接输送到大语言模型，借助大语言模型的能力输出文字，这些文字可以是对问题的回复，也可以是对任务的规划。（看上去大家都应该学fei了）

训练与实验

文章大篇幅介绍了相关实验，实验数据集如下，主要包括网络VQA数据和机器人轨迹数据。
在这里插入图片描述

实验通过消融对比了不同大语言模型规模和训练方式对任务的影响。

VQA任务

VQA不是本工作的核心，但附带也能进行此类认为，因此也做了相关测评，该实验对比了不同规模模型和训练方式对该任务的影响，结果如下：
在这里插入图片描述

纯语言任务

该实验对比了不同规模模型对纯语言问答任务的影响。
在这里插入图片描述

机器人具身规划任务

这一部分是本工作的核心，验证了大语言模型规模和训练方式对该任务的影响，分别在TAMP(纯规划)，Language table(机械臂桌面push任务)和机器人移动操作任务（室内移动操作任务）上进行对比。

TAMP(Task and Motion Planning)任务

在这里插入图片描述

Language-Table

在该任务中，Palm-E规划任务，将高层次的人类语言转化成多个机器人可执行步骤，然后调用LAVA这个工作执行，整个工作流程如下所示：
在这里插入图片描述
一些实验结果如下所示：

移动操作任务

可供性评估（Affordance prediction）和失败检测

Affordance是指根据图片判断某个子任务skill可否被成功执行，失败检测是指根据观测，判断任务是否被成功完成，两者都是机器人闭环任务规划的一大重要环节，对比结果如下：
在这里插入图片描述

长水平规划(Long-horizon)

在这里插入图片描述

实验摘要和讨论

通用性与特定任务模型–迁移性(Generalist vs specialist models – transfer)

利用多任务数据训练，最终可对单个任务起促进作用。（但这个实验博主觉得不太严密，缺乏一个full only robot data实验）
在这里插入图片描述

数据有效性(Data efficiency）

机器人的数据很难获得，但通过大量网络数据的训练，Palm-E也可在少量机器人数据上训练出一个不错的用于任务规划的模型，体现了一定的迁移性，OSRT的结果展示了另一种数据有效性的示例–使用集合输入表征。

保存纯语言能力

论文介绍了两种方法：

训练过程中freeze住LLM模型，但这可能会使得在机器人任务中很失败；
使用足够大的LLM模型。

总结

我们提出通过将图像等多模态信息注入到具身语言模型中来构建具身多模态大语言模型。实验表明现成的最先进的视觉语言模型仅接受一般 VQA 和字幕任务的训练还不足以用于具身推理任务，也有近期的工作表明了其在可供性评估上的局限性，为了克服这些局限性，我们提出PaLM-E，一个单一模型，能够在模拟和现实世界中控制不同的机器人，同时
具备一般视觉语言任务能力。尤其是将新颖的神经场景表示（即 OSRT）应用到Pla-E，使得即使没有大规模数据，该模型在机器人多任务中也特别有效。重要的是，我们也证明这种多模态训练带来多种迁移能力——将语言融入具身决策规划中，从而使机器人更高效地完成规划任务。尽管我们的结果表明冻结语言模型是可行的，使得通向通用具身多模式模型的道路同时完全保留语言能力，我们还提出了使用解冻模型的替代途径：增加语言模型的大小会显着减少灾难性遗忘。最大的模型，PaLM-E-562B，展示了强大的思维链能力和视觉图像任务能力。

个人思考

谷歌Palm-E的工作向我们展示了将大语言模型和多模态应用于机器人具身规划中，可以动态规划任务，同时展现了一定的迁移泛化性。但这个工作比较难以复现，模型易懂，但其中最大问题就在于它需要大量的数据，如同大多数其他AI工作一样，机器人具身大规模数据才是最大的瓶颈。

原文地址：https://blog.csdn.net/weixin_43827285/article/details/140422852

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：机器人相关工科专业课程体系
下一篇：LeetCode 算法：电话号码的字母组合 c++

【网络安全】Cookie SameSite属性
严格限制可能会影响用户体验，例如，当用户点击 GitHub 链接时，无法保持登录状态，因为此时会丢失 GitHub 的 Cookie。当浏览器加载该图片时，它会向 A.com 发送带有 Cookie
阅读更多2024-11-16
【C语言】实现二维数组按行排序
【C语言】实现二维数组按行排序
阅读更多2024-11-16
NLP开发常见问题
NLP开发常见问题
阅读更多2024-11-16
在spring boot工程中使用Filter时，@WebFilter 注解不生效的问题分析和解决方案
如果要使用@WebFilter进行过滤路径的配置，则需要在启动类中添加@ServletComponentScan注解启用Servlet容器扫描@WebFilter注解，并删除Filter类中的@Com
阅读更多2024-11-16
天天学编程Day16
在 C++ 中，常量表达式（Constant Expression）是指在编译期就能计算出结果的表达式。其结果在程序运行过程中是不可改变的，并且这个结果必须是编译时常量，例如整数常量、枚举常量、用常量
阅读更多2024-11-16
消失的数字（c语言实现）
方法一我们使用异或操作符实现。介绍一下^操作符性质就是首先0^a=a；a^a=0;然后异或操作符还满足交换律。比如a ^ b ^ c ^a= a ^ a ^b ^c;我们可以通过这样的性质实现这个代
阅读更多2024-11-16
机器学习——期末复习重点题归纳
机器学习期末复习
阅读更多2024-11-16
opencv kdtree & pcl kdtree 效率对比
由于项目中以一个环节需要使用kdtree ,对性能要求比较严苛，所以看看那个kdtree效率高一些。对比了opencv和pcl。
阅读更多2024-11-16
Qt 5.6.3 手动配置 mingw 环境
手动设置 qt mingw 编译环境
阅读更多2024-11-16
IntelliJ IDEA 2024.3（Ultimate Edition）免费化教学
一款由 JetBrains 公司开发的集成开发环境 (Integrated Development Environment, IDE)，主要用于 Java 语言的软件开发，但它也支持其他多种编程语言和
阅读更多2024-11-16

机器人前沿--PalmE：An Embodied Multimodal Language Model 具身多模态大(语言)模型

Palm-E两大任务：视觉问答(VQA)和具身任务规划

具身任务规划

VQA

贡献

Palm-E网络结构

训练与实验

VQA任务

纯语言任务

机器人具身规划任务

TAMP(Task and Motion Planning)任务

Language-Table

移动操作任务

可供性评估（Affordance prediction）和失败检测

长水平规划(Long-horizon)

实验摘要和讨论

通用性与特定任务模型–迁移性(Generalist vs specialist models – transfer)

数据有效性(Data efficiency）

保存纯语言能力

总结

个人思考

相关文章