自学内容网 自学内容网

最新!谷歌发布基础世界模型!11B参数,能生成可交互虚拟世界

最新!谷歌发布基础世界模型!11B参数,能生成可交互虚拟世界

前言

谷歌定义了生成式 AI 的全新范式 —— 生成式交互环境(Genie,Generative Interactive Environments)。Genie 是一个 110 亿参数的基础世界模型,可以通过单张图像提示生成可玩的交互式环境。

我们可以用它从未见过的图像进行提示,然后与自己想象中的虚拟世界进行互动。

不管是合成图像、照片甚至手绘草图,Genie 都可以从中生成无穷无尽的可玩世界。
在这里插入图片描述

什么是Genie

论文地址:https://arxiv.org/pdf/2402.15391.pdf

项目主页:https://sites.google.com/view/genie-2024/home?pli=1

这篇来自 Google DeepMind 的论文介绍了一个 11B 基础世界名为 Genie 的模型,根据 2d 平台游戏的未标记互联网视频进行训练。

先来一波问题答疑

Google Genie 提供哪些功能?
Google Genie 能够从图像创建动态的交互式环境,开辟创造力和游戏开发的新领域。

Google Genie 如何学习创建这些环境?
它从大量的互联网视频数据集中学习,了解可控元素和一致的动作,而无需标记数据。

Google Genie 可以处理任何图像吗?
是的,Google Genie 可以从各种图像(包括现实世界的照片和草图)生成可玩的世界。

Google Genie 对 AI 发展有何影响?
它是开发通用人工智能代理的垫脚石,提供了多样化、生成的训练世界的新课程。

创作者如何使用 Google Genie?
创作者可以使用 Google Genie 将想象的世界变为现实,将其与文本到图像模型相结合以增强创造力。

Genie 具有三个组件:

一个潜在动作模型,用于推断每对帧之间的潜在动作;

一个视频标记器,用于将原始视频帧转换为离散标记;

一个动态模型,根据给定的潜在动作和过去的帧标记,预测下一个动作视频的帧。

Genie 模型还针对机器人视频进行了训练,作为机器人中潜在世界模型应用的概念验证。
在这里插入图片描述

可玩世界的基础模型?

近年来,生成式人工智能取得了重大进展,使模型能够跨各种媒介生成创意内容。

Google Genie 通过引入生成交互环境的概念,使这一目标更进一步。与传统的生成模型不同,Google Genie 可以通过单个图像提示生成交互式、可玩的环境。

它的与众不同之处在于,它甚至可以从以前从未遇到过的图像(例如现实世界的照片或草图)生成可玩的世界。

Google Genie 的基础在于其训练过程,该过程利用了大量公开的互联网视频数据集。尽管这些视频缺乏动作标签,但 Google Genius 能够专门从中学习细粒度的控制。

这种能力使模型能够识别观察中的可控元素,并推断生成的环境中一致的潜在动作。相同的潜在动作可以在不同的提示图像中产生相似的行为,展示了模型概括其学习的能力。
在这里插入图片描述
Google Genie 最令人着迷的方面之一是它无需操作标签即可学习的能力。

传统的训练方法通常依赖标记数据来教授模型特定的动作,但 Google Genie 采用了不同的方法。通过分析大量的互联网视频,该模型不仅可以了解观察的哪些部分通常是可控的,还可以推断出在不同提示图像中保持一致的各种潜在动作。
在这里插入图片描述

赋能新一代的创作者

只需要一张图像就可以创建一个全新的交互环境。这为生成和进入虚拟世界的各种新方法打开了大门,例如,我们可以采用最先进的文本到图像生成模型,并使用它来生成起始帧,然后我们可以与 Genie 一起栩栩如生。在这里,我们使用Imagen2生成图像并使用 Genie 将它们变为现实。

请看图片
在这里插入图片描述
加入模型之后
在这里插入图片描述
Google Genie 通过提供一种无缝方式从单个图像生成整个交互式世界,为创作者提供支持。

该技术开辟了新的创造力途径,并为创作者提供了进入虚拟世界的令人兴奋的机会。例如,将 Google Genie 与最先进的文本到图像生成模型相结合,使创作者能够将他们的想象世界变为现实。

通过使用 Imagen2 等模型生成起始帧,然后使用 Google Genie 对其进行动画处理,创作者可以为他们的虚拟创作注入活力。

可能性还不止于此。Google Genie 甚至可以将人类设计的作品(例如草图或现实世界的图像)带入交互式环境中。人类创造力与生成式人工智能的融合为创作者提供了大量探索和扩展其艺术视野的机会。

但它并不止于此,我们甚至可以步入草图等人类设计的创作
在这里插入图片描述
加入模型之后
在这里插入图片描述

生成虚拟世界的未来

动作视频上训练了一个较小的 2.5B 模型。与平台游戏的情况一样,具有相同潜在动作序列的轨迹通常会表现出相似的行为。这表明 Genie 能够学习一致的动作空间,这可能适合训练具体的多面手智能体

在这里插入图片描述

再次,谷歌认为 Genie 是实现通用智能体的基石之作。以往的研究表明,游戏环境可以成为开发 AI 智能体的有效测试平台,但常常受到可用游戏数量的限制。

现在借助 Genie,未来的 AI 智能体可以在新生成世界的无休止的 curriculum 中接受训练。谷歌提出一个概念证明,即 Genie 学到的潜在动作可以转移到真实的人类设计的环境中。

最后,谷歌表示,Genie 是一种通用方法,可以应用于多个领域,而不需要任何额外的领域知识。

尽管所用数据更多是 2D Platformer 游戏游戏和机器人视频,但该方法具备通用性,适用于任何类型的领域,并可扩展到更大的互联网数据集。


原文地址:https://blog.csdn.net/gerouhsius/article/details/136314238

免责声明:本站文章内容转载自网络资源,如侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!