自学内容网 自学内容网

3D 生成重建028-Hunyuan3D腾讯出品的单视图3d生成

3D 生成重建028-Hunyuan3D腾讯出品的单视图3d生成



0 论文工作

虽然三维生成模型极大地改善了艺术家的工作流程,但现有的三维生成扩散模型存在生成速度慢和泛化能力差的问题。为了解决这个问题,论文提出了一种名为腾讯混元3D-1.0的两阶段方法,它支持文本和图像条件下的三维生成。在第一阶段,采用了一个多视角扩散模型,在约4秒内高效地生成多视角RGB图像。这些多视角图像从不同的视角捕捉到了三维资产的丰富细节,将任务从单视角重建放宽到多视角重建。在第二阶段,引入了一个前馈重建模型,该模型能够快速且忠实地根据生成的图像重建三维资产,大约需要7秒。重建网络学习处理多视角扩散模型引入的噪声和不一致性,并利用条件图像中的可用信息高效地恢复三维结构。框架包含一个文本到图像模型——混元-DiT ,使其成为一个支持文本和图像条件三维生成的统一框架。腾讯混元3D-1.0在速度和质量之间取得了令人印象深刻的平衡,在保持生成资产的质量和多样性的同时,显著减少了生成时间。
就像加粗的字体所显示的内容,hunyuan3d的基本流程跟LRMCRM属于同一类型工作。如果说有进展应该主要体现在多视图生成中,后面多视图生成3平面特征进行几何重建的过程与前面的方法保持相近的策略。

paper
github

1 论文方法

请添加图片描述
腾讯混元3D 采用了一个两阶段的生成流程:
多视角图像生成: 首先,利用一个高效的多视角扩散模型,从文本或单张图像生成包含丰富细节的多视角RGB图像 (约4秒)。 该模型通过固定视角的相机轨迹来最大化可见区域,并利用一种视图感知的无分类器引导技术来平衡不同视角图像的生成质量和多样性。
三维模型重建: 然后,利用一个前馈重建网络,快速且忠实地从生成的六个视角的图像重建三维模型 (约7秒)。该重建网络学习处理多视角扩散过程引入的噪声和不一致性,并有效地利用条件图像信息来恢复三维结构。 该框架还集成了一个文本到图像模型 (Hunyuan-DiT),实现了文本到三维模型的统一生成流程。
论文提供了精简版和标准版两种模型,标准版参数量是精简版和现有方法的3倍。
两阶段流水线式设计: 将三维生成任务分解为多视角图像生成和三维模型重建两个阶段,这种流水线式设计提高了效率,避免了直接训练复杂的三维扩散模型的困难。

高效的多视角扩散模型: 采用高效的多视角扩散模型,快速生成包含丰富细节的多视角图像,并通过固定视角的相机轨迹和视图感知的无分类器引导技术提高生成质量和多样性,为后续的三维重建提供了高质量的输入。
高效的前馈重建网络: 使用前馈式重建网络,避免了耗时的迭代优化过程,实现了快速的三维模型重建。 该网络能够处理多视角扩散过程中的噪声和不一致性,并有效利用条件图像信息。

2 实验结果

大模型的思路做三维生成,跟视频流,直接生成nerf或者直接生成3DGS,都属于3d生成里面比较贵的模型了。
请添加图片描述


原文地址:https://blog.csdn.net/weixin_41871126/article/details/144364928

免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!