自学内容网 自学内容网

3D 生成重建018-LangSplat用文本在3DGS内搜寻你的真爱

3D 生成重建018-LangSplat用文本在3DGS内搜寻你的真爱



0 论文工作

我们生活在三维世界中,会常用自然语言与三维场景互动。构建三维语言场以支持三维空间中开放式语言查询近年来越来越受到关注。本文介绍了 LangSplat,它构建了一个三维语言场,能够在三维空间内实现精确且高效的开放词汇查询。与现有将 CLIP 语言嵌入整合到 NeRF 模型中的方法不同,LangSplat 利用一系列三维高斯函数来表示语言场,每个高斯函数都编码了从 CLIP 中提取的语言特征。通过采用基于平铺的 splatting 技术来渲染语言特征,论文避免了 NeRF 中固有的高昂渲染成本。LangSplat 并没有直接学习 CLIP 嵌入,而是首先训练了一个场景级的语言自动编码器,然后在场景特定的潜在空间上学习语言特征,从而减轻了显式建模带来的巨大内存需求现有方法难以处理不精确且模糊的三维语言场,这些语言场无法清晰地区分物体之间的边界。我们深入探讨了这个问题,并提出利用 SAM 来学习分层语义,从而避免了在各种尺度上对语言场进行广泛查询以及 DINO 特征的正则化。大量的实验结果表明,LangSplat 显著优于现有的最先进方法23年的时候的 LERF。值得注意的是,LangSplat 的效率极高,在 1440 × 1080 分辨率下比 LERF 快 199 倍。
我们主要总结一下论文比较重要的两个点:
一个就是SAM+CLIP为了边界更清晰。clipSam
另外一方面feature 3dgs采用的是低维升高维。这个方法采用的是用编码器编码到低维,encoder-decoder解决维度过高的问题。

paper
github

论文方法

论文有强调直接使用CliP对边界地带不是很友好直接引入SAM。然后为了缓解计算成本问题引入一个编码解码器架构。为什么成本高呢,虽然3DGS受用了球鞋函数来便是颜色,但是当使用512维或者1024维度的特征去渲染的话对现存的要求直线爆炸。
LangSplat 的关键方面:
三维高斯 splatting: LangSplat 使用三维高斯 splatting 来表示三维场景,而不是计算成本高昂的 NeRF。这导致速度显著提高(在 1440x1080 分辨率下比 LERF 方法快 199 倍)。
与 SAM(Segment Anything Model,分割任何事物模型)相结合的分层语义: 为了解决将 CLIP 嵌入与三维点关联的固有歧义问题,LangSplat 集成了 SAM。SAM 提供分层语义分割(整体、部分、子部分),从而提高了学习到的三维语言场的精度。这消除了之前方法中使用的多尺度查询和辅助特征的需要。
场景特定的语言自动编码器: 为了降低直接存储每个三维高斯的高维 CLIP 嵌入所带来的内存成本,LangSplat 采用了场景特定的自动编码器。该编码器将嵌入压缩到低维潜在空间,从而显著降低了内存消耗。
开放词汇查询: LangSplat 使用 CLIP 嵌入实现开放词汇查询,允许使用自然语言与三维场景进行灵活交互。
请添加图片描述

2 实验效果

实际中因为继承了CLIP的文本和图像的对齐属性,论文可以使用玩具这个更抽象的词汇来搜集所有玩具,也可以用一个具体的棕色小熊玩偶来搜索某一个。在早起用CLIP做2D语义分割的时候大家就发现了CLIP训练的强大之处。大规模的无监督的对比学习在基础模型的贡献上相当强大。
请添加图片描述


原文地址:https://blog.csdn.net/weixin_41871126/article/details/144305545

免责声明:本站文章内容转载自网络资源,如侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!