DepthCrafter：为开放世界视频生成一致的长深度序列

🕗 发布于 2024-09-22 00:46 音视频 人工智能 计算机视觉

在这里插入图片描述
通过利用视频扩散模型，我们创新了一种新颖的视频深度估算方法–DepthCrafter。它可以为开放世界视频生成具有细粒度细节的时间一致性长深度序列，而无需摄像机姿势或光流等附加信息。

简介

动机。尽管在静态图像的单目深度估算方面取得了重大进展，但由于开放世界视频在内容、运动、摄像机移动和长度等方面存在极大差异，因此估算开放世界视频的深度仍然具有挑战性。我们提出了一种创新方法–DepthCrafter，用于为开放世界视频生成具有复杂细节的时间一致性长深度序列，而无需摄像机姿势或光流等任何补充信息。 DepthCrafter 通过精心设计的三阶段训练策略，利用编译好的成对视频深度数据集，从预先训练好的图像到视频扩散模型训练视频到深度模型，从而实现对开放世界视频的泛化能力。我们的训练方法使模型能够一次性生成长度可变的深度序列，最多可达 110 帧，并从现实和合成数据集中获取精确的深度细节和丰富的内容多样性。我们还提出了一种推理策略，通过分段估计和无缝拼接来处理超长视频。

在这里插入图片描述
概述 DepthCrafter 是一个条件扩散模型，它以输入视频为条件，对深度序列的分布进行建模。我们分三个阶段对模型进行训练，其中扩散模型的空间层或时间层是在我们编译的现实数据集或长度可变的合成数据集上逐步学习的。在推理过程中，给定一个开放世界的视频，它可以从初始化的高斯噪声中为整个视频生成具有细粒度细节的时间上一致的长深度序列，而不需要任何补充信息，如摄像机姿势或光流。

在这里插入图片描述
超长视频推理。我们将视频划分为重叠的片段，并采用噪声初始化策略估算每个片段的深度序列，以锚定深度分布的尺度和偏移。然后，这些估算出的片段通过潜在插值策略无缝拼接在一起，形成整个深度序列。

Project: https://depthcrafter.github.io/
Code: https://github.com/Tencent/DepthCrafter
arXiv: https://arxiv.org/abs/2409.02095
Paper:https://depthcrafter.github.io/pdf/DepthCrafter.pdf
Model:https://huggingface.co/tencent/DepthCrafter

使用

安装

git clone https://github.com/Tencent/DepthCrafter.git
cd DepthCrafter
pip install -r requirements.txt

推理

高分辨率推理，需要 1024x576 分辨率的约 26GB 内存的 GPU：

完全推理（在 A100 上约为 0.6 fps，建议用于获得高质量结果）：

python run.py  --video-path examples/example_01.mp4

通过四步去噪，在无分类器引导的情况下实现快速推理（在 A100 上约为 2.3 fps）：

python run.py  --video-path examples/example_01.mp4 --num-inference-steps 4 --guidance-scale 1.0

低分辨率推理，需要约 9GB 内存的 GPU，分辨率为 512x256：

完全推理（在 A100 上约为 2.3 帧/秒）：

python run.py  --video-path examples/example_01.mp4 --max-res 512

通过 4 步去噪和无分类器引导实现快速推理（在 A100 上约为 9.4 帧/秒）：

python run.py --video-path examples/example_01.mp4 --max-res 512 --num-inference-steps 4 --guidance-scale 1.0

Gradio Demo

提供了本地的 Gradio Demo 模型，以运行：

gradio app.py

原文地址：https://blog.csdn.net/weixin_41446370/article/details/142310344

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：【路径规划】红嘴蓝鹊优化器：一种用于2D/3D无人机路径规划和工程设计问题的新型元启发式算法
下一篇：MATLAB绘图：2.plot函数

SQL中的WITH AS语法
SQL中的WITH AS语法是一种强大的工具，WITH AS可以简化复杂查询的编写，提高查询的可读性和维护性，WITH AS 语句允许用户定义一个临时的结果集，这个结果集被称为公共表表达式（Commo
阅读更多2024-09-22
ubuntu 22.04 ~24.04 如何修改登录背景
背景：由于22.04 登录gdm的变更，之前的修改登录背景的方案已经无法使用。另外，说一句，当你哪天用了ubuntu之后，你会发现，win真的是个渣渣~~~推荐大家体验哈。说明：111.jepg可以更
阅读更多2024-09-22
一文读懂 JS 中的 Map 结构
JS中的Map结构是怎样的？如何使用？Map和WeakMap有什么区别？
阅读更多2024-09-22
【TypeScript入坑】TypeScript 的装饰器
装饰器（Decorator）是一种语法结构，用来在定义时修改类（class）的行为。在语法上，装饰器有如下几个特征。第一个字符（或者说前缀）是，后面是一个表达式。后面的表达式，必须是一个函数（或者执行
阅读更多2024-09-22
中级蜜蜂饲喂管理一
在巢外的活动和现象就能大致推断蜂群内部的情况。通过箱外观察，了解蜂群这项工作随时都可以进行，尤其是在特殊的环境条件下，蜂群不适宜开箱检查时，箱外观察更为常用。局部检查就是通过抽查巢内一至两张巢脾，判断
阅读更多2024-09-22
react中diff的选择性子树渲染
在React中，组件的渲染是高效的，这得益于React的虚拟DOM（Virtual DOM）和diff算法。React的diff算法主要用于比较旧虚拟DOM树和新虚拟DOM树之间的差异，并仅更新实际D
阅读更多2024-09-22
如何更新Oracle表 LONG型的大文本学习
本文将讲述LONG的一些特点，并介绍在修改LONG型字段中一些问题现象以及相关修改最终处理方式，对于使用LONG型的数据库如需改动需要一番不同寻常的操作。而如果一个老的web应用系统使用了LONG型，
阅读更多2024-09-22
救生圈检测系统源码分享
数据集信息展示在现代计算机视觉领域，数据集的质量和多样性直接影响到模型的训练效果和最终性能。为此，我们选用了“Note Detection FRC 2024”数据集，旨在改进YOLOv8的救生圈检测系
阅读更多2024-09-22
SOMEIP_ETS_123: SD_Length_of_Entry_Array_longer_than_message_allows
本测试用例旨在确保DUT遵循SOME/IP协议，当接收到一个条目数组长度超出消息总长度的SubscribeEventgroup消息时，能够正确地拒绝该订阅请求。验证DUT能够拒绝一个条目数组长度超出消
阅读更多2024-09-22
《论分布式存储系统架构设计》写作框架，软考高级系统架构设计师
分布式存储系统（Distributed Storage System）通常将数据分散存储在多台独立的设备上。传统的网络存储系统采用集中的存储服务器存放所有数据，存储服务器成为系统性能的瓶颈，也是可靠性
阅读更多2024-09-22

DepthCrafter：为开放世界视频生成一致的长深度序列

简介

使用

安装

推理

Gradio Demo

相关文章