最新！谷歌发布基础世界模型！11B参数，能生成可交互虚拟世界

🕗 发布于 2024-03-02 14:26 ai chatgpt AIGC AI作画 stable diffusion

前言

谷歌定义了生成式 AI 的全新范式 —— 生成式交互环境（Genie，Generative Interactive Environments）。Genie 是一个 110 亿参数的基础世界模型，可以通过单张图像提示生成可玩的交互式环境。

我们可以用它从未见过的图像进行提示，然后与自己想象中的虚拟世界进行互动。

不管是合成图像、照片甚至手绘草图，Genie 都可以从中生成无穷无尽的可玩世界。
在这里插入图片描述

什么是Genie

论文地址：https://arxiv.org/pdf/2402.15391.pdf

项目主页：https://sites.google.com/view/genie-2024/home?pli=1

这篇来自 Google DeepMind 的论文介绍了一个 11B 基础世界名为 Genie 的模型，根据 2d 平台游戏的未标记互联网视频进行训练。

先来一波问题答疑

Google Genie 提供哪些功能？
Google Genie 能够从图像创建动态的交互式环境，开辟创造力和游戏开发的新领域。

Google Genie 如何学习创建这些环境？
它从大量的互联网视频数据集中学习，了解可控元素和一致的动作，而无需标记数据。

Google Genie 可以处理任何图像吗？
是的，Google Genie 可以从各种图像（包括现实世界的照片和草图）生成可玩的世界。

Google Genie 对 AI 发展有何影响？
它是开发通用人工智能代理的垫脚石，提供了多样化、生成的训练世界的新课程。

创作者如何使用 Google Genie？
创作者可以使用 Google Genie 将想象的世界变为现实，将其与文本到图像模型相结合以增强创造力。

Genie 具有三个组件：

一个潜在动作模型，用于推断每对帧之间的潜在动作；

一个视频标记器，用于将原始视频帧转换为离散标记；

一个动态模型，根据给定的潜在动作和过去的帧标记，预测下一个动作视频的帧。

Genie 模型还针对机器人视频进行了训练，作为机器人中潜在世界模型应用的概念验证。
在这里插入图片描述

可玩世界的基础模型？

近年来，生成式人工智能取得了重大进展，使模型能够跨各种媒介生成创意内容。

Google Genie 通过引入生成交互环境的概念，使这一目标更进一步。与传统的生成模型不同，Google Genie 可以通过单个图像提示生成交互式、可玩的环境。

它的与众不同之处在于，它甚至可以从以前从未遇到过的图像（例如现实世界的照片或草图）生成可玩的世界。

Google Genie 的基础在于其训练过程，该过程利用了大量公开的互联网视频数据集。尽管这些视频缺乏动作标签，但 Google Genius 能够专门从中学习细粒度的控制。

这种能力使模型能够识别观察中的可控元素，并推断生成的环境中一致的潜在动作。相同的潜在动作可以在不同的提示图像中产生相似的行为，展示了模型概括其学习的能力。
在这里插入图片描述
Google Genie 最令人着迷的方面之一是它无需操作标签即可学习的能力。

传统的训练方法通常依赖标记数据来教授模型特定的动作，但 Google Genie 采用了不同的方法。通过分析大量的互联网视频，该模型不仅可以了解观察的哪些部分通常是可控的，还可以推断出在不同提示图像中保持一致的各种潜在动作。
在这里插入图片描述

赋能新一代的创作者

只需要一张图像就可以创建一个全新的交互环境。这为生成和进入虚拟世界的各种新方法打开了大门，例如，我们可以采用最先进的文本到图像生成模型，并使用它来生成起始帧，然后我们可以与 Genie 一起栩栩如生。在这里，我们使用Imagen2生成图像并使用 Genie 将它们变为现实。

请看图片
在这里插入图片描述
加入模型之后

Google Genie 通过提供一种无缝方式从单个图像生成整个交互式世界，为创作者提供支持。

该技术开辟了新的创造力途径，并为创作者提供了进入虚拟世界的令人兴奋的机会。例如，将 Google Genie 与最先进的文本到图像生成模型相结合，使创作者能够将他们的想象世界变为现实。

通过使用 Imagen2 等模型生成起始帧，然后使用 Google Genie 对其进行动画处理，创作者可以为他们的虚拟创作注入活力。

可能性还不止于此。Google Genie 甚至可以将人类设计的作品（例如草图或现实世界的图像）带入交互式环境中。人类创造力与生成式人工智能的融合为创作者提供了大量探索和扩展其艺术视野的机会。

但它并不止于此，我们甚至可以步入草图等人类设计的创作
在这里插入图片描述
加入模型之后

生成虚拟世界的未来

动作视频上训练了一个较小的 2.5B 模型。与平台游戏的情况一样，具有相同潜在动作序列的轨迹通常会表现出相似的行为。这表明 Genie 能够学习一致的动作空间，这可能适合训练具体的多面手智能体

在这里插入图片描述

再次，谷歌认为 Genie 是实现通用智能体的基石之作。以往的研究表明，游戏环境可以成为开发 AI 智能体的有效测试平台，但常常受到可用游戏数量的限制。

现在借助 Genie，未来的 AI 智能体可以在新生成世界的无休止的 curriculum 中接受训练。谷歌提出一个概念证明，即 Genie 学到的潜在动作可以转移到真实的人类设计的环境中。

最后，谷歌表示，Genie 是一种通用方法，可以应用于多个领域，而不需要任何额外的领域知识。

尽管所用数据更多是 2D Platformer 游戏游戏和机器人视频，但该方法具备通用性，适用于任何类型的领域，并可扩展到更大的互联网数据集。

原文地址：https://blog.csdn.net/gerouhsius/article/details/136314238

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

C语言从头学69——学习头文件time.h
time.h头文件中定义了有关时间的数据类型、结构体、函数等。
阅读更多2024-10-19
学习CSS常用声明（属性），为网页修饰搭建基础
【bold：粗体（bolder表示粗体再加粗），normal：默认字体，lighter：比默认字体还细（100~900，数字越小越细）】【underline：下划线，overline：上划线，line
阅读更多2024-10-19
Git原理与使用（一）
主要是学习git操作；
阅读更多2024-10-19
在 macOS 上卸载 CocoaPods
如果看到输出“command not found”，说明已经成功卸载。这样应该就能够完全卸载 CocoaPods。
阅读更多2024-10-19
奥比中光opencv显示可见光图片
在奥比中光提供的sdk中没有直接使用opencv读取显示视频流的功能，参照案例与代码写了一个opencv显示奥比中光可见光流的cpp代码。
阅读更多2024-10-19
企业一级流程架构规划方法
当事情结束，取得成功之后，很多人自然而然的认为，一切都已经完成了，这正是大多数人会出现的问题，然而PDCA法告诉我们，在此时，我们不要因为成功而得意忘形，我们还需要对此事进行总结和复盘，总结成功的经验
阅读更多2024-10-19
【红日安全】vulnstack （一）
靶场下载链接：http://vulnstack.qiyuanxuetang.net/vuln/detail/2/下载解压后在VM中打开目标跟我们处于同一个网段先查一下我们自己的IP，用 ifconfi
阅读更多2024-10-19
分布式篇（分布式事务）（持续更新迭代）
事务是指数据库管理系统中 DBMS 提供一种数据操作模式，一般的数据库系统都支持事务管理。事务，它不是代码级别的，所有事务的控制都是因为数据库本身支持，代码中编写的事务只是一个控制。最终回滚和提交一定
阅读更多2024-10-19
Leetcode 721 账户合并
对于有多个元素的集合，我们就要根据self.parent中的内容，依次向上查找，直到无法向上继续找（即，找到的向上的id还是它自身）。并查集（Union-Find）是一种非常有用的数据结构，并查集是一
阅读更多2024-10-19
深度学习速通系列:超长法律文件隐私过滤(基于预训练模型Bert)
网上使用bert的中文模型进行命名识别教程少的可怜,摸索了一周的时间,硬是把法律文书的人名全部识别出来了,目前可以达到98.9999%(开玩笑的,不过准确率保守估计是有90%以上).注意:这个法律文书
阅读更多2024-10-19

最新！谷歌发布基础世界模型！11B参数，能生成可交互虚拟世界

最新！谷歌发布基础世界模型！11B参数，能生成可交互虚拟世界

前言

什么是Genie

可玩世界的基础模型？

赋能新一代的创作者

生成虚拟世界的未来

相关文章