【浅谈具身智能（Embodied AI）】AI新风口？

🕗 发布于 2024-07-23 17:46 人工智能

具身智能

概念:

具身智能（Embodied AI）是一种基于物理身体进行感知和行动的智能系统。它通过智能体与环境的交互获取信息、理解问题、做出决策并实现行动，从而产生智能行为和适应性。具身智能拥有支持感知和运动的物理身体，可以进行主动式感知，也可以执行物理任务。更重要的是，具身智能强调“感知-行动回路”的重要性，即感受世界—对世界进行建模—进而采取行动—进行验证并调整模型的过程。

核心要素:

具身智能的核心要素包括：
1. 本体：作为实际的执行者，是在物理或者虚拟世界进行感知和任务执行的机构。本体通常是具有物理实体的机器人，可以有多种形态，如四足机器人、复合机器人、人形机器人等。本体具备环境感知能力、运动能力和操作执行能力，是连接数字世界和物理世界的载体。
2. 智能体（Embodied Agents）：是具身于本体之上的智能核心，负责感知、理解、决策、控制等的核心工作。智能体可以感知复杂环境，理解环境所包含的语义信息，能够和环境进行交互；可以理解具体任务，并且根据环境的变化和目标状态做出决策，进而控制本体完成任务。
3. 数据：数据是泛化的关键，但涉及机器人的数据稀缺且昂贵。为了适应复杂环境和任务的泛化性，智能体规模变得越来越大，而大规模的模型对于海量数据更为渴求。
4. 学习和进化架构：智能体通过和物理世界（虚拟的或真实的）的交互，来适应新环境、学习新知识并强化出新的解决问题方法。

应用与发展前景:

具身智能在工业、消费、民生服务、城市管理等方面均有较好的应用场景。例如，人形机器人的发展超出了预料，预计到2035年人形机器人出货量将达到140万台，市场达到380亿美元。具身智能机器人如智元机器人(AgiBOT)的远征A1，能够在形态上与人类相似，实现双足行走、智能任务、人机互动等操作。

具身智能被认为是人工智能领域的一个重要分支，正在成为广泛关注的热门话题。随着深度学习等技术的快速发展，具身智能研究进入了一个新的阶段。研究人员利用虚拟物理环境和强大的计算能力，设计和训练具备感知和行动能力的智能系统，并将这种交互能力迁移到真实世界，使智能体进行自主决策和执行物理交互任务。

挑战与难点:

实现好的具身智能面临算法、工程技术、数据、场景和复杂软硬件等的诸多挑战：
1. 强大的通用本体平台：需要解决硬件的关键零部件技术突破，形成具有优秀运动能力和操作能力的平台级通用机器人产品，将具身本体的可靠性、成本和通用能力做到平衡。
2. 设计强大的智能体系统：具备复杂环境感知认知能力的智能体，将需要解决诸多挑战，包括物理3D环境精确感知、任务编排与执行、强大的通识能力、多级语义推理能力、人机口语多轮交互能力、long-term记忆能力、个性化情感关怀能力、强大的任务泛化与自学迁移能力等。
3. 高质量的行业数据：现实场景的复杂多变，使得现阶段缺乏足够的场景数据来训练一个完全通用的大模型，进而让智能体自我进化。

突破性进展:

PaLM-E：
- PaLM-E是一个结合了感知和语言能力的多模态模型。它通过整合视觉、声音等多种传感器数据，与语言模型相结合，使得模型能够理解并与真实世界进行交互。这种融合让模型能够执行一些需要感知输入的任务，比如根据视觉信息进行导航。
VoxPoser：
- VoxPoser方法使用大型语言模型（LLM）和视觉语言模型（VLM）来生成机器人的轨迹。它通过将语言模型的指令转化为机器人的动作，实现了从自然语言指令到机器人操作的直接映射。
March in Chat：
- March in Chat模型在REVERIE环境中工作，这是一个虚拟环境，用于训练和测试智能体。该模型通过与语言模型的交互来进行动态规划，能够理解和执行复杂的导航任务。
Discuss Before Moving：
- 这个模型通过模拟专家咨询会议的方式，使用多个大型语言模型来讨论并决定最佳的导航路径。每个模型代表一个领域专家，通过集体讨论来提高决策的准确性。
Skill Transformer：
- Skill Transformer结合了条件序列建模和技能模块性，用于解决需要长期规划的复杂机器人任务。它通过预测高级技能和低级动作的序列，来控制机器人完成复杂的操作任务。
See to Touch：
- 这个框架使用视觉激励来训练机器人的触觉灵活性。通过观察视觉信息，机器人学习如何通过触觉反馈来改善其操作精度和灵活性。
Context-Aware Planning and Environment-Aware Memory：
- 这个模型专注于改善具身代理在视觉导航和对象交互方面的表现。它通过考虑动作的后果和环境变化，来规划一系列动作，从而更好地执行任务。
Statler：
- Statler框架为大型语言模型提供了对世界状态的显式表示和维护能力。这种状态维护允许模型在长时间跨度内进行推理，超越了传统语言模型的上下文限制。
Embodied Task Planning with Large Language Models：
- 该研究提出了一种基于场景约束的具身任务规划方法，利用大型语言模型来生成在真实世界中可执行的计划。通过结合场景理解和任务规划，生成适应性的动作序列。
Conditionally Combining Robot Skills using Large Language Models：
- 这项研究提出了使用大型语言模型有条件地组合机器人技能的方法。通过语言模型，机器人可以根据环境条件和任务需求选择和组合不同的技能来执行任务。

具身智能作为人工智能的新风口，其发展前景广阔，但也存在不少技术挑战，需要产学研各界的共同努力来推动其发展和应用。

原文地址：https://blog.csdn.net/weixin_50947533/article/details/140638788

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：【MySQL进阶篇】存储对象：视图、存储过程及触发器
下一篇：数据清洗系统设计

【网络安全】Cookie SameSite属性
严格限制可能会影响用户体验，例如，当用户点击 GitHub 链接时，无法保持登录状态，因为此时会丢失 GitHub 的 Cookie。当浏览器加载该图片时，它会向 A.com 发送带有 Cookie
阅读更多2024-11-16
【C语言】实现二维数组按行排序
【C语言】实现二维数组按行排序
阅读更多2024-11-16
NLP开发常见问题
NLP开发常见问题
阅读更多2024-11-16
在spring boot工程中使用Filter时，@WebFilter 注解不生效的问题分析和解决方案
如果要使用@WebFilter进行过滤路径的配置，则需要在启动类中添加@ServletComponentScan注解启用Servlet容器扫描@WebFilter注解，并删除Filter类中的@Com
阅读更多2024-11-16
天天学编程Day16
在 C++ 中，常量表达式（Constant Expression）是指在编译期就能计算出结果的表达式。其结果在程序运行过程中是不可改变的，并且这个结果必须是编译时常量，例如整数常量、枚举常量、用常量
阅读更多2024-11-16
消失的数字（c语言实现）
方法一我们使用异或操作符实现。介绍一下^操作符性质就是首先0^a=a；a^a=0;然后异或操作符还满足交换律。比如a ^ b ^ c ^a= a ^ a ^b ^c;我们可以通过这样的性质实现这个代
阅读更多2024-11-16
机器学习——期末复习重点题归纳
机器学习期末复习
阅读更多2024-11-16
opencv kdtree & pcl kdtree 效率对比
由于项目中以一个环节需要使用kdtree ,对性能要求比较严苛，所以看看那个kdtree效率高一些。对比了opencv和pcl。
阅读更多2024-11-16
Qt 5.6.3 手动配置 mingw 环境
手动设置 qt mingw 编译环境
阅读更多2024-11-16
IntelliJ IDEA 2024.3（Ultimate Edition）免费化教学
一款由 JetBrains 公司开发的集成开发环境 (Integrated Development Environment, IDE)，主要用于 Java 语言的软件开发，但它也支持其他多种编程语言和
阅读更多2024-11-16