Video generation models as world simulators-视频生成模型作为世界模拟器

🕗 发布于 2024-02-23 17:32 ai 视频

原文地址：Video generation models as world simulators

我们探索在视频数据上进行大规模生成模型的训练。具体来说，我们联合训练文本条件扩散模型，同时处理不同持续时间、分辨率和长宽比的视频和图像。我们利用一个在视频和图像潜在编码的时空块上运行的转换器结构。我们最大的模型Sora能够生成一分钟高保真度视频。我们的结果表明，扩展视频生成模型是建立物理世界通用目的模拟器的一个有前途的途径。

这份技术报告着重介绍了两个方面：(1) 我们将各种类型的视觉数据转化为统一表示形式的方法，从而实现生成模型的大规模训练；和 (2) 对Sora的能力和局限性进行定性评估。报告中不包括模型和实施细节。

许多先前的研究都使用各种方法对视频数据进行生成建模，包括循环网络、生成对抗网络、自回归变换器和扩散模型。这些工作通常聚焦于狭窄类别的视觉数据、较短的视频或固定大小的视频。Sora是一种视觉数据的通用模型，它能够生成跨越不同持续时间、长宽比和分辨率的视频和图像，达到高清晰度视频长达一分钟。

将视觉数据转化为块

我们受到大型语言模型的启发，这些模型通过在互联网规模的数据上进行训练获得了通用能力。语言模型的成功在一定程度上归功于优雅地统一了文本、代码、数学和各种自然语言等多种形式的令牌。在这项工作中，我们考虑如何将视觉数据的生成模型继承这些好处。而语言模型使用文本令牌，Sora使用视觉块。之前已经证明，块对于视觉数据的模型是一种有效的表示形式。我们发现，块是一种高度可扩展且有效的表示形式，适用于训练各种类型的视频和图像的生成模型。

在高层次上，我们首先将视频压缩成较低维的潜在空间，然后将表示分解为时空块。

视频压缩网络

我们训练了一个网络来降低视觉数据的维度。该网络接收原始视频作为输入，并输出一个在时间和空间上都进行了压缩的潜在表示。Sora在这个压缩的潜在空间上进行训练，并生成视频。我们还训练了一个相应的解码器模型，将生成的潜在表示映射回像素空间。

时空潜在块

给定一个压缩的输入视频，我们提取一系列时空块作为变换器的令牌。这个方案也适用于图像，因为图像只是具有单帧的视频。我们基于块的表示形式使得Sora能够在分辨率、持续时间和长宽比可变的视频和图像上进行训练。在推理时，我们可以通过将随机初始化的块按适当大小的网格排列来控制生成的视频的大小。

扩展变换器用于视频生成

Sora是一个扩散模型；在给定噪声块输入（以及像文本提示这样的条件信息）的情况下，它被训练来预测原始的“清晰”块。重要的是，Sora是一个扩散变换器。变换器在各种领域展示了显著的扩展性能，包括语言建模、计算机视觉和图像生成。

在这项工作中，我们发现扩散变换器同样可以有效地扩展为视频模型。下面，我们展示了在训练进行中使用固定种子和输入的视频样本比较。随着训练计算力的增加，样本质量显著提高。

可变的持续时间、分辨率和长宽比

先前的图像和视频生成方法通常将视频调整大小、裁剪或修剪为标准尺寸，例如256x256分辨率的4秒视频。我们发现，相反，以原始大小训练数据具有几个优势。

采样灵活性

Sora可以对宽屏1920x1080p视频、竖屏1080x1920视频以及介于两者之间的视频进行采样。这使Sora能够直接以各种设备的原生长宽比创建内容。它还使我们能够在较低尺寸快速原型化内容，然后再使用相同的模型生成全分辨率内容。

改善构图和组成

我们在实践中发现，以视频的原生长宽比进行训练可以改善构图和组成。我们将Sora与将所有训练视频裁剪为正方形的模型版本进行了比较，这是训练生成模型时常见的做法。在正方形裁剪训练的模型（左侧）有时会生成主体仅部分在视野中的视频。相比之下，Sora生成的视频（右侧）具有改进的构图。

语言理解

训练文本到视频生成系统需要大量带有相应文本标题的视频。我们将引入 DALL·E 3 中的重新标注技术应用到视频中。我们首先训练一个高度描述性的标题模型，然后使用它为我们训练集中的所有视频生成文本标题。我们发现，使用高度描述性的视频标题进行训练不仅提高了文本的准确性，还改善了视频的整体质量。

类似于DALL·E 3，我们还利用GPT将用户的简短提示转化为更加详细的长篇说明，并将其发送给视频模型。这使得Sora能够生成高质量的视频，准确地遵循用户的提示。

通过图像和视频发出提示

以上所有结果以及我们的主页展示的都是文本到视频的样本。但是Sora也可以通过其他输入进行提示，例如预先存在的图像或视频。这种能力使得Sora能够执行各种图像和视频编辑任务，比如创建完美循环的视频、为静态图像添加动画效果、向后或向前延伸视频等。

为DALL·E图像添加动画效果

Sora能够根据提供的图像和提示生成视频。以下是基于DALL·E 2和DALL·E 3图像生成的示例视频。

延长生成的视频

Sora还可以延长视频的时间，可以向前或向后延长。以下是四个视频，它们都是从一个生成的视频片段开始向时间倒退延伸。因此，这四个视频的开头各不相同，但最终都导向同样的结尾。

我们可以使用这种方法向前和向后延伸视频，以生成一个无缝的无限循环。

视频到视频的编辑

扩散模型为从文本提示编辑图像和视频提供了众多方法。下面我们将其中一种方法，SDEdit，应用到Sora上。这种技术使得Sora能够零-shot转换输入视频的风格和环境。

连接视频

我们还可以使用Sora逐渐插值两个输入视频之间，创建在完全不同主题和场景组合之间无缝过渡的视频。在下面的示例中，中间的视频是左侧和右侧对应视频之间插值产生的结果。

图像生成能力

Sora还具备生成图像的能力。我们通过在时间轴上以一帧的时间跨度将高斯噪声块排列在空间网格中来实现这一点。该模型可以生成不同大小的图像，分辨率高达2048x2048。

新兴的仿真能力

我们发现，当视频模型在大规模训练时，它们表现出一些有趣的新兴能力。这些能力使得Sora能够从物理世界中模拟出人、动物和环境的某些方面。这些特性的出现并没有任何针对3D、物体等显式归纳偏好，它们纯粹是规模现象所产生的。

3D一致性 Sora可以生成具有动态摄像机运动的视频。随着摄像机的移动和旋转，人物和场景元素在三维空间中以一致的方式移动。

长程连贯性和物体持久性 对视频生成系统的一个重要挑战是在采样长视频时保持时间一致性。我们发现，尽管不总是如此，Sora通常能够有效地模拟短期和长期依赖关系。例如，我们的模型可以在人们、动物和物体被遮挡或离开画面时仍然保持它们的存在。同样地，它可以在单个样本中生成同一角色的多个镜头，并在整个视频中保持他们的外观。

与世界互动 Sora有时可以模拟一些影响世界状态的简单动作。例如，一位画家可以在画布上留下新的笔触，并随着时间推移而保留下来，或者一个人可以吃掉一个汉堡并留下咬痕。

模拟数字世界 Sora还能够模拟人工过程，一个例子是视频游戏。Sora可以同时使用基本策略控制《Minecraft》中的玩家，并以高保真度呈现世界及其动态。通过提供包含“Minecraft”关键词的描述性标题，这些能力可以从零开始引出。

这些能力表明，继续扩展视频模型是发展高能力物理世界和数字世界模拟器的有前途的道路，并模拟其中生活的物体、动物和人类。

讨论

目前，Sora作为一个模拟器还存在许多限制。例如，它无法准确地模拟许多基本交互的物理性质，比如玻璃破碎。其他交互，比如吃东西，也不总是产生正确的物体状态变化。我们在我们的首页上列举了模型出现的其他常见故障模式，比如长时间样本中出现的不连贯性或物体的突然出现。

我们相信，Sora如今所展现的能力表明，继续扩展视频模型是发展具有能力的物理世界和数字世界模拟器，并模拟其中生活的物体、动物和人类的有前途的道路。

原文地址：https://blog.csdn.net/hay23455/article/details/136226282

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：【STM32备忘录】【STM32WB系列的BLE低功耗蓝牙】一、测试广播配置搜不到信号的注意事项
下一篇：使用 JMeter 生成测试数据对 MySQL 进行压力测试

Python_爬虫2_爬虫引发的问题
约束性：Robots协议是建议但非约束性，网络爬虫可以不遵守，但存在法律风险。Robots Exclusion Standard 网络爬虫排除标准。网络爬虫：自动或人工识别robots.txt，再进行
阅读更多2024-11-17
STM32 | 小区环境检测系统
现在一些智慧小区安装小区环境检测系统，能够将小区当前位置的温度、湿度、光照强度，小区空气质量及自己所在城市所在天气信息实时显示在点阵的LED屏幕上。随着科技的发展，人们的生活水平越来越高，对居住的要求
阅读更多2024-11-17
力扣-2175、世界排名的变化
TeamPointsteam_id 包含唯一值。这张表的每一行均包含了一支国家队的 ID，它所代表的国家，以及它在全球排名中的得分。没有两支队伍代表同一个国家。team_id 包含唯一值。这张表的每一
阅读更多2024-11-17
【Python模拟websocket登陆-拆包封包】
python模拟访问websocket，完成登陆的功能，细节也是基本的类型转换，构造与js一致的数据包，并发送到sever、
阅读更多2024-11-17
M｜完美的日子
这个电影有两大争议点，主要的一点是一个东亚的厕所清洁工是否真会有这样的生活，还是说这是作为西方人的导演的意淫呢？这种生活底层劳动人民有是有，少肯定是很少。更深入地批判是，东亚普通民众的生活剪影远没有电
阅读更多2024-11-17
Ubuntu24.04配置安装可视化terminal终端
其实我想要连接家里的PVE虚拟机，并且去局域网访问各种虚拟机，只要一个占用带宽很小的terminal就可以，于是我就找到了各种可视化terminal终端，也把每个终端都搞了一下，对比一下看哪个好用，结
阅读更多2024-11-17
CI/CD认识
持续集成是一种开发实践，指团队中的开发人员将代码频繁地（通常每天多次）集成到共享的代码库中，并通过自动化的测试和构建来快速验证代码的正确性。持续交付和持续部署是 CI 的延续，专注于将代码从开发环境推
阅读更多2024-11-17
vue如何实现组件切换
【代码】vue如何实现组件切换。
阅读更多2024-11-17
【大数据学习 | flume】flume之常见的channel组件
Channel是连接Source和Sink的组件，大家可以将它看做一个（数据队列），它可以将事件暂存到内存中也可以持久化到本地磁盘上，直到Sink处理完该事件，Flume对于Channel，则提供了
阅读更多2024-11-17
类与对象；
构造函数是一个特殊的成员函数，名字与类名相同（date类构造函数 date（x，y））创建类类型对象时由编译器自动调用，以保证每个数据成员都有一个合适的初始值，并且在对象整个生命周期内只调用一次。构
阅读更多2024-11-17