扩散模型生成 360度场景

🕗 发布于 2024-11-15 16:48 人工智能

让图像扩散模型生成高质量360度场景

本文转自：

https://zhuanlan.zhihu.com/p/702726610

蔡志鹏博士（https://zhipengcai.github.io/）是美国英特尔研究院的研究员，博士毕业于澳大利亚阿德莱德大学。他的研究兴趣包括鲁棒视觉感知，持续学习和生成模型等。他的工作已在领域顶级会议杂志上发表超过15篇。其中5篇文章被选为顶级会议（ECCV18*2，ICCV19，ICLR24，CVPR24）口头或特邀报告，对鲁棒估计计算复杂度的理论证明工作被选为ECCV18 12篇最佳论文之一。

360 度场景生成是计算机视觉的重要任务，主流方法主要可分为两类，一类利用图像扩散模型分别生成 360 度场景的多个视角。由于图像扩散模型缺乏场景全局结构的先验知识，这类方法无法有效生成多样的 360 度视角，导致场景内主要的目标被多次重复生成，如图 1 的床和雕塑。

图 1. 缺乏场景全局结构的先验知识导致一个卧室出现多张床，一个公园出现多个雕塑。

另一类方法将 360 度场景用一张 Equirectangular Image 来表示，并用 GAN 或扩散模型直接生成。由于该表征的局限性，这类方法通常无法有效完成 360 度闭环（如图 2 每张图片的中间部分），导致 360 度的连接处出现明显的分界线。同时由于缺少大规模训练数据，这类方法有时无法生成复合输入条件的场景。最后，这类方法通常只能接受文字作为输入。

图 2. 现有方法的闭环问题.

为了解决这些问题，来自美国英特尔研究院的 Zhipeng Cai 等人提出了L-MAGIC（Language Model Assisted Generation of Images with Coherence），通过使用语言模型控制图像扩散模型有效实现高质量、多模态、零样本泛化的 360 度场景生成。L-MAGIC 的 live demo 已被选为英特尔公司 2024 年的 5 个技术突破之一，在 ISC HPC 2024 上展示。该论文已被 CVPR 2024 接收。

项目主页：https://zhipengcai.github.io/MMPano
代码：https://github.com/IntelLabs/MMPano
论文地址：https://arxiv.org/pdf/2406.01843
Youtube 视频介绍：https://youtu.be/XDMNEzH4-Ec
Intel ISC HPC 2024 live demo：https://www.intel.com/content/www/us/en/events/supercomputing.html

方法概览

如图 3 所示，L-MAGIC 是一个结合了语言模型及扩散模型的场景生成框架。L-MAGIC 通过自然图像连接各类不同模态的输入。当输入不是一张自然图像时，L-MAGIC 使用成熟的条件扩散模型如 ControlNet 从各种模态的输入（文字，手绘草图，深度图等等）生成一张自然图像。

图 3.L-MAGIC 流程图。

在获得自然图像之后，L-MAGIC 通过 iterative warping and inpainting 来生成 360 度场景的多个视角。在每一个 iteration 中，warping step 将已生成的多视角 warp 到一个新的视角，实例中的黑色部分代表新视角中的缺失像素。Inpainting step 使用基于扩散的图像 inpainting 模型（Stable Diffusion v2）生成缺失像素。为了使图像扩散模型能够生成多样的全局场景结构，L-MAGIC 使用语言模型控制扩散模型在每个视角需要生成的场景内容。

除了生成 360 度场景的全景图，利用深度估计模型，L-MAGIC 还能够生成包含相机旋转及平移的沉浸式视频，以及场景的三维点云。由于无需微调，L-MAGIC 能够有效地保持语言及扩散模型的泛化性，实现多样化场景的高质量生成。

L-MAGIC 的核心是使用语言模型全自动地控制扩散模型。如图 4 所示若用户未提供场景的文字描述，L-MAGIC 使用视觉语言模型（如 BLIP-2）基于输入图像获得场景的整体描述（line 2）。

获得场景描述后，L-MAGIC 使用如 ChatGPT 的语言模型（开源代码已支持 ChatGPT-3.5、ChatGPT-4、Llama3），使其根据整体场景描述生成各个视角的描述（line 3），并决定对该场景是否需要防止重复物体的生成（line 5，如树林里各个视角都是树是合理的，但卧室有 5 张床就比较少见，L-MAGIC 利用大语言模型的泛化性能自适应地规避不合理的重复目标）。

由于扩散模型训练数据的 bias，有时扩散模型的输出无法完全符合语言模型的 prompt 要求。为了解决该问题，L-MAGIC 再次使用视觉语言模型监督扩散模型的输出（line 14-18），如果扩散模型的输出不符合语言模型的要求，L-MAGIC 会重新进行当前视角的生成。

图 4. L-MAGIC 算法。

实验结果

如图 5 所示，L-MAGIC 在图像到 360 度场景生成及文字到 360 度场景生成任务中均达到了 SOTA。

图 5. 定量实验。

如图 6 及图 7 所示，L-MAGIC 在多样的输入及场景下均能够生成具有多样化 360 度场景结构的全景图，并且能够平滑地完成 360 度闭环。

图 6. 图像到 360 度场景生成。

图 7. 文字到 360 度场景生成

如图 8 所示，除了文字及自然图像之外，L-MAGIC 还能够使用 ControlNet 接受多样化的输入，例如深度图、设计草图等。

图 8. 更多不同模态的输入。

通过利用成熟的计算机视觉算法例如深度估计，L-MAGIC 还能够生成场景的沉浸式视频（见 presentation video）以及三维点云（图 9）。有趣的是，我们能够清晰地分辨海底场景点云中鱼以及珊瑚的几何结构。

图 9. 三维点云生成结果。

原文地址：https://blog.csdn.net/jacke121/article/details/143799485

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：开源对象存储新选择：在Docker上部署MinIO并实现远程管理
下一篇：css文字间距撑满横向距离

MinIo在Ubantu和Java中的整合
方法抛出的各种异常进行了捕获，然后打印了异常信息，目前这种处理逻辑，无论Minio是否发生异常，前端在上传文件时，总是会受到成功的响应信息。会处理所有Controller方法抛出的异常，因此Contr
阅读更多2024-11-15
HTTP基础
当浏览者访问一个网页时，浏览者的浏览器会向网页所在服务器发出请求。当浏览器接收并显示网页前，此网页所在的服务器会返回一个包含HTTP状态码的信息头（server header）用以响应浏览器的请求。H
阅读更多2024-11-15
linux phy mdio 读取工具
【代码】linux phy mdio 读取工具。
阅读更多2024-11-15
sql文件
sql文件通常包含SQL语句，用于数据库的创建、修改和数据操作。根据内容的不同，.sql文件的使用方式也有所不同。
阅读更多2024-11-15
MongoDB创建只读用户并授权指定集合的查询权限
创建一个自定义角色，只允许在。集合上执行查询操作。
阅读更多2024-11-15
#渗透测试#SRC漏洞挖掘#云技术基础03之容器相关
Podman是Docker的替代产品，它无守护进程。在运行容器时，若不加sudo启动可能会报错，因为默认禁止侦听1024以下端口，例如运行httpd容器可以使用命令。Kubernetes，通常简称为K
阅读更多2024-11-15
Linux权限和开发工具(3)
我们在做项目的时候可能会遇到对自己的修改不满意,想要回到上一个版本时候,就需要对自己完成一个阶段,对当前阶段进行备份,就方便我们后续进行版本回退了。后的程序可以执行但是文件也会大一些,让生成的程序带上
阅读更多2024-11-15
C++ 编程基础（5）类与对象 | 5.8、面向对象五大原则
在软件开发领域，面向对象编程（OOP）是一种重要的编程范式，它通过封装、继承和多态等特性，提高了代码的可重用性、灵活性和可维护性。C++作为一种强大的面向对象编程语言，充分体现了这些原则。在面向对象的
阅读更多2024-11-15
Tailwind 安装使用
Tailwind 安装使用
阅读更多2024-11-15
JavaScript中的二叉树排序你了解吗？
在计算机科学中，二叉树是一种常见的数据结构，用于存储和组织数据。二叉树排序（Binary Tree Sort）是一种基于二叉搜索树的排序算法。它的基本思想是将待排序的元素插入到二叉搜索树中，然后通过中
阅读更多2024-11-15

扩散模型生成 360度场景

相关文章