自学内容网 自学内容网

3D 生成重建021-LRM基于大模型的生成式3D生成模型

3D 生成重建021-LRM基于大模型的生成式3D生成模型



0 论文工作

论文提出了一种名为大型重建模型 (LRM) 的新型模型,该模型可在短短 5 秒内根据单张输入图像预测物体的 3D 模型。与许多先前仅在 ShapeNet 等小型数据集上进行类别特定训练的方法不同,LRM 采用了一种高度可扩展的基于Transformer 的架构,该架构拥有 5 亿个可学习参数,可直接从输入图像预测神经辐射场 (NeRF)。论文在包含约 100 万个物体的大规模多视图数据集上端到端地训练模型,这些数据包括来自 Objaverse 的合成渲染和来自 MVImgNet 的真实捕获。这种高容量模型与大规模训练数据的结合使得我们的模型能够从各种测试输入中进行高度泛化并生成高质量的 3D 重建,包括真实的野外捕获图像和生成模型创建的图像。
这篇论文声称式第一个3d生成大模型,但是我的认识里面PointE跟ShapE都是相近的工作,还要更早一点。关于时间的问题不去细究,基本上从这个阶段开始,三维原生派的算法开始多了起来。但是最早期的这个论文当时没有开源。
paper

1 论文方法

请添加图片描述
这篇论文提出了一种名为大型重建模型 (LRM) 的新方法,能够根据单张图像快速、准确地重建高质量的三维模型。基于transfomer架构用图像去预测三瓶面特征,实现nerf重建。在当时优化比较流行的情况下5S已经快了至少两个数量级。其主要贡献和创新点如下。
1、大规模数据驱动: 这是LRM最显著的创新点。以往的单图像三维重建方法通常依赖于相对较小的数据集和类别特定的先验知识,导致泛化能力有限。LRM利用了Objaverse和MVImgNet这两个大规模数据集,包含了种类丰富、数量巨大的三维物体数据,这使得模型能够学习到更通用的三维表示和重建能力。
2、基于Transformer的架构: LRM采用了一个高度可扩展的基于Transformer的架构,这使得模型能够有效地处理大规模的数据,并学习到更复杂的特征表示。Transformer的注意力机制能够捕捉图像中不同区域之间的关系,从而更好地重建三维形状。
3、高效的Tri-plane NeRF表示: LRM使用Tri-plane NeRF来表示三维形状,这种表示方法比传统的体素或点云表示方法更简洁高效,能够更好地处理大规模的数据。
4、端到端训练和高效推理: LRM采用端到端训练方式,简化了训练过程,并提高了模型的效率。最终的模型能够在5秒内完成重建,这对于实际应用具有重要意义。
5、良好的泛化能力: LRM在各种类型的图像上都表现出了良好的泛化能力,包括真实场景图像、合成图像和AI生成图像,这表明模型学习到的三维先验知识具有较好的通用性。
总而言之,LRM 通过结合大规模数据驱动、基于Transformer 的架构、高效的三维表示方法和端到端训练策略,在单图像三维重建任务上取得了显著的成果,并展现出了优异的泛化能力和效率。其大规模数据驱动的训练方法是其核心创新点,为单图像三维重建领域的研究提供了新的方向。

2 实验结果

请添加图片描述


原文地址:https://blog.csdn.net/weixin_41871126/article/details/144333130

免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!