CVPR2024开源：FoundationPose6D物体姿态估计和跟踪

🕗 发布于 2025-01-13 13:36 目标位姿估计

文章目录

前言
1. Introduction
2. 相关工作
3. 方法

前言

代码：github
原文：原文
摘要： 我们提出了FoundationPose，这是一种统一的基础模型，用于6D物体姿态估计和跟踪，支持基于模型和无模型的设置。我们的方法可以在测试时立即应用于新物体，而无需微调，只需提供其CAD模型，或者捕获少量参考图像。在统一框架的支持下，下游的姿态估计模块在两种设置中相同，采用神经隐式表示来实现高效的新视图合成，即使在没有CAD模型的情况下也适用。通过大规模合成训练、结合大语言模型（LLM）、新型基于Transformer的架构以及对比学习形式，我们实现了强大的泛化能力。在多个公共数据集上的广泛评估表明，我们的统一方法在涉及具有挑战性的场景和物体时，比专为每个任务设计的现有方法具有显著优势。此外，即便在假设减少的情况下，我们的方法也实现了与实例级方法相当的结果。项目页面： https://nvlabs.github.io/FoundationPose/
在这里插入图片描述
图1. 我们的统一框架支持新目标的6D姿态估计和跟踪，同时支持基于模型和无模型两种设置。在这四个任务中的每一个上，它都优于专为该任务设计的现有工作（●表示仅使用RGB；×表示使用RGBD，与我们的方法一致）。每个任务的评估指标在实验结果中进行了详细解释。

1. Introduction

计算从目标到相机的刚体 6D 转换（通常称为目标姿态估计），对于多种应用至关重要，如机器人操作和混合现实。传统方法（例如：[20, 21, 31, 50, 68]）被称为 实例级方法，因为它们仅适用于训练时定义的特定目标实例。此类方法通常需要一个带纹理的 CAD 模型来生成训练数据，并且无法在测试时应用于新的目标。类别级方法（例如：[5, 34, 60, 64, 75]）通过消除实例级训练和 CAD 模型的依赖性解决了上述局限性，但其仅限于训练类别中的目标。此外，获取类别级训练数据往往非常困难，部分原因在于额外的数据规范化和检查步骤需要实施。近期的研究重点是即时姿态估计和任意新目标的轨迹估计。根据测试时可用信息的不同，主要分为两种设置：

基于模型：提供目标的纹理化 3D CAD 模型。
无模型：提供目标的一组参考图像。

尽管在这两种设置上分别取得了显著进展，但现实世界中不同的应用往往提供不同类型的信息，迫切需要一个能够统一解决两种设置的单一方法。在本文中，我们提出了一个统一框架，名为 FoundationPose，可以同时执行目标姿态估计与跟踪任务。无论是基于模型还是无模型的场景，该方法都表现出优越的性能，并显著优于现有技术。完整方法请参考本文及相关图示。通过大规模合成训练，以及借助大语言模型（LLM）、一种新型的基于 Transformer 的架构和对比学习，获得了强大的泛化能力。我们在基于模型和无模型两种设置之间架起了一座桥梁，使用一种神经隐式表示，只需少量（约16张）参考图像即可实现高效的新视图合成，渲染速度显著快于之前的“渲染与比较”方法 [32, 36, 67]。
我们的贡献可总结如下：

我们提出了一个统一框架，用于新目标的姿态估计和跟踪，同时支持基于模型和无模型两种设置。一种以目标为中心的神经隐式表示用于高效的新视图合成，弥合了两种设置之间的差距。
我们提出了一种 LLM 辅助的合成数据生成管道，通过多样的纹理增强方法扩展了 3D 训练资产的多样性。
我们新设计了基于 Transformer 的网络架构和对比学习公式，在仅使用合成数据进行训练时也能实现强大的泛化能力。
我们的方法在多个公共数据集上显著优于现有专注于每个任务的顶尖方法。在减少假设的情况下，该方法甚至在实例级方法的基础上也能实现具有竞争力的结果。

2. 相关工作

2.1 基于CAD模型的目标位姿估计

实例级位姿估计方法 [20, 21, 31, 50] 假设对象具有已知的纹理化CAD模型。这类方法在训练和测试阶段使用完全相同的实例，通常通过直接回归 [37, 73]、构建2D-3D对应关系并结合PnP算法 [50, 61]、或者通过构建3D-3D对应关系并结合最小二乘拟合 [20, 21] 来解决目标的位姿估计问题。为了放宽对对象先验知识的假设，类别级方法 [5, 34, 60, 64, 75, 77] 可以应用于同一类别中的新实例，但它们无法推广到预定义类别之外的任意新目标。为了解决这一局限性，近期的研究 [32, 55] 旨在实现对任意新目标的即时位姿估计，只要在测试阶段提供CAD模型即可。

2.2 少样本无模型目标位姿估计

无模型方法消除了对显式纹理化模型的需求，取而代之的是提供一些捕捉目标对象的参考图像 [19, 22, 51, 58]。例如，RLLG [3] 和 NeRF-Pose [35] 提出了基于实例的训练方法，而无需显式CAD模型。特别是，[35] 构建了一个神经辐射场，用于在目标坐标图和遮罩上提供半监督信号。不同的是，我们的方法在合成和真实世界数据上联合训练，支持RGB和深度输入。

2.3 目标位姿跟踪

6D目标位姿跟踪旨在利用时间信息，使视频序列中的位姿预测更高效、平滑且准确。通过神经渲染，我们的方法可以轻松扩展到高效的位姿跟踪任务。与单帧位姿估计类似，现有的跟踪方法可以根据对目标先验知识的假设分为不同类别，包括实例级方法 [8, 11, 36, 67]、类别级方法 [39, 63]、基于模型的新目标跟踪方法 [29, 56, 72] 和无模型的新目标跟踪方法 [66, 71]。在基于模型和无模型的设置下，我们在多个公共数据集上均设立了新的基准纪录，甚至超越了需要实例级训练的现有最先进方法 [8, 36, 67]。
在这里插入图片描述
图2. 框架概览 为了减少大规模训练的人工工作量，我们通过利用包括3D模型数据库、大型语言模型和扩散模型在内的新兴技术和资源，开发了一种新颖的合成数据生成管道（见第3.1节）。为了弥合无模型和基于模型设置之间的差距，我们采用了一个以对象为中心的神经场（见第3.2节）用于新视角RGBD渲染，支持后续的渲染与比较。在位姿估计中，我们首先在对象周围均匀初始化全局位姿，然后通过优化网络进行细化（见第3.3节）。最终，我们将优化后的位姿传递到位姿选择模块，该模块预测它们的分数，并将得分最高的位姿作为输出（见第3.4节）。

3. 方法

我们的系统整体如图2所示，展示了各组件之间的关系，并在以下小节中进行了详细描述。

3.1 基于语言的规模化数据生成

为了实现强泛化能力，训练需要大量多样化的对象和场景数据。在现实世界中获取此类数据并为其标注准确的6D位姿真值既耗时又昂贵。而合成数据虽然是一个选择，但其通常缺乏3D资源的规模和多样性。基于此，我们开发了一种新颖的合成数据生成管道用于训练，该管道由近年来新兴的资源和技术提供支持：大规模3D模型数据库[6, 10]、大语言模型（LLM）以及扩散模型[4, 24, 53]。这种方法相比以往的工作[22, 26, 32]，显著增加了数据量和多样性。

3D资产

我们从最近的大规模3D数据库中获取训练资产，包括 Objaverse [6] 和 GSO [10]。在 Objaverse 中，我们选择了来自 Objaverse-LVIS 子集的对象，该子集包含了超过40,000个对象，属于1156个 LVIS [13] 类别。该列表包含了与日常生活相关的最重要对象，具有合理的质量，并且形状和外观多样性丰富。此外，它还为每个对象提供了类别描述，这在后续基于LLM的纹理增强步骤中有助于自动生成语言提示。
在这里插入图片描述
图3. 顶部：FS6D [22] 提出的随机纹理混合。底部：我们利用大型语言模型（LLM）辅助的纹理增强生成了更加真实的外观。最左侧是原始3D资产。文本提示由ChatGPT自动生成。

LLM辅助纹理增强

虽然大多数Objaverse对象具有高质量形状，但它们的纹理保真度差异显著。FS6D [22] 提议通过从ImageNet [7] 或MS-COCO [38] 随机粘贴图像来增强对象纹理。然而，由于随机UV映射，这种方法在生成的纹理网格上会出现如接缝之类的伪影（见Fig. 3顶部）；将整体场景图像应用于对象也会导致不真实的结果。相比之下，我们探索了如何利用大语言模型和扩散模型的最新进展，以实现更真实（并完全自动化）的纹理增强。具体来说，我们提供一个文本提示、一个对象形状和一个随机初始化的噪声纹理到TexFusion [4]，以生成增强的纹理模型。当然，手动提供这样的提示在需要在不同提示指导下增强大量对象时并不可扩展。因此，我们引入了一种两级分层提示策略。如图2左上角所示，我们首先提示ChatGPT，要求其描述对象的可能外观；该提示被模板化，使得每次我们只需替换与对象配对的标签，该标签由Objaverse-LVIS列表提供。来自ChatGPT的答案然后成为扩散模型的纹理合成提示。由于这种方法支持纹理增强的全自动化，它能够在规模上实现多样化的数据生成。图3展示了更多关于同一对象的不同风格化的示例。

数据生成
我们的合成数据生成是在NVIDIA Isaac Sim中实现的，利用路径追踪进行高保真照片级真实感渲染[^1]。我们执行重力和物理模拟以生成物理合理的场景。在每个场景中，我们随机采样包括原始和纹理增强版本的简单对象。对象的大小、材料、摄像机姿态和照明也随机化；更多细节可在附录中找到。

3.2 神经物体建模

场景表示 对于模型自由设定的情况（当3D CAD模型不可用时），一个关键挑战是表示物体以有效地渲染具有足够质量的图像，用于下游模块。神经隐式表示不仅适用于新视角生成，还能够在GPU上实现高计算效率的并行化，当渲染多个位姿假设以用于下游位姿估计模块时尤为显著（如图 2 所示）。为此，我们引入了一种面向物体的神经场表示，用于物体建模，灵感来源于之前的工作[45] [65] [71] [74]。

首先，几何函数 $\Omega : x \mapsto s$ 接受一个3D点 $\in \mathbb{R}^3$ 并输出符号距离值 $\in \mathbb{R}$ 。其次，外观函数 $\Phi : (f_{\Omega}(x), n, d) \mapsto c$ 将几何函数的中间特征值、表面法线 $n$ 和视点方向 $d$ 嵌入生成颜色 $\in \mathbb{R}^+_0$ 。

我们应用多分辨率哈希编码[45] 以对 $x$ 进行编码后传递至网络。隐式物体表面是通过符号距离场(SDF) 的零水平集获得： $\{x \in \mathbb{R}^3 | \Omega(x) = 0\}$ 。相比于NeRF[44]，SDF 表示 $\Omega$ 提供了更高质量的深度渲染，同时不需要手动选择密度阈值。

在纹理学习过程中，我们遵循了截断的近表面区域的体渲染方法 [71]：

$\int_{z(r)-\lambda}^{z(r)+0.5\lambda} w(x_i)\Phi(f_{\Omega}(x_i), n(x_i), d(x_i))dt, \tag{1}$

$w(x_i) = \frac{1}{1 + e^{-\alpha\Omega(x_i)}} \cdot \frac{1}{1 + e^{\alpha\Omega(x_i)}}, \tag{2}$

其中， $w(x_i)$ 是一个基于 $\Omega(x_i)$ 的钟形概率密度函数， $\Omega(x_i)$ 表示点到隐式物体表面的签名距离，而 $\alpha$ 用于调整分布的柔性。在公式 (1) 中， $z (r)$ 是深度图中射线 $r$ 的深度值， $\lambda$ 是截断距离。为了提高训练效率，我们忽略了距离物体表面超过 $\lambda$ 的空白空间贡献，仅将积分范围限制到 0.5 $\lambda$ 的穿透距离内以模拟自遮挡 [65]。

在训练过程中，我们将这一量与参考 RGB 图像进行比较，用于颜色监督：

$\mathcal{L}_c = \frac{1}{|\mathcal{R}|} \sum_{r \in \mathcal{R}} \|c(r) - \bar{c}(r)\|_2^2, \tag{3}$

其中， $\bar{c}(r)$ 表示射线 $r$ 所经过像素的真值颜色。对于几何学习，我们采用混合 SDF 模型 [71]，通过将空间划分为两个区域来学习 SDF，包括空白空间损失和近表面损失，同时对近表面 SDF 应用 Eikonal 正则化 [12]：

$\mathcal{L}_e = \frac{1}{|\mathcal{X}_e|} \sum_{x \in \mathcal{X}_e} |\Omega(x) - \lambda|, \tag{4}$

$\mathcal{L}_s = \frac{1}{|\mathcal{X}_s|} \sum_{x \in \mathcal{X}_s} (\Omega(x) + d_x - d_D)^2, \tag{5}$

$\mathcal{L}_{\text{eik}} = \frac{1}{|\mathcal{X}_s|} \sum_{x \in \mathcal{X}_s} (\|\nabla\Omega(x)\|_2 - 1)^2, \tag{6}$

其中 $\mathcal{X}_e$ 表示空白空间点的集合， $\mathcal{X}_s$ 表示近表面点的集合， $\lambda$ 是空白区域的截断距离， $d_x$ 和 $d_D$ 分别表示当前点与理想表面的距离偏差。其中， $x$ 表示沿射线采样的3D点； $d_x$ 和 $d_D$ 分别是从射线起点到采样点和观测深度点的距离。我们不使用不确定的空白空间损失 [71]，因为模板图像在模型自由设置中是离线预捕获的。总训练损失函数为：

$\mathcal{L} = w_c \mathcal{L}_c + w_e \mathcal{L}_e + w_s \mathcal{L}_s + w_{\text{eik}} \mathcal{L}_{\text{eik}}. \tag{7}$

学习过程针对每个物体进行，无需先验知识，并且可以在几秒内高效完成。对于一个新物体，神经场只需训练一次。
渲染训练完成后，神经场可以作为传统图形管线的直接替代，用于对象的高效渲染，以支持后续的“渲染与比较”迭代。除了原始 NeRF [44] 中的颜色渲染外，我们还需要为基于 RGBD 的位姿估计和跟踪生成深度渲染。为此，我们通过 Marching Cubes 算法 [41] 从 SDF 的零级集提取带纹理的网格，并结合颜色投影。这仅需对每个物体执行一次。在推理阶段，给定一个物体的位姿，我们通过光栅化过程渲染 RGBD 图像。

作为另一种方法，也可以在线使用球面追踪 [14] 直接渲染深度图像；然而，我们发现这种方法效率较低，特别是在需要并行渲染多个位姿假设时。
在这里插入图片描述
图4. 位姿排序可视化
我们提出的分层比较方法利用所有位姿假设之间的全局上下文信息，以更好地预测整体趋势，使得形状和纹理对齐。红色圆圈标注了真正的最佳位姿。

3.3 位姿假设生成

位姿初始化 给定RGBD图像，通过诸如Mask R-CNN [18]或CNOS [47]等现成方法检测目标物体。平移初始化使用检测到的2D边界框中位深度点对应的3D点。旋转初始化通过从以目标物体为中心的球面（icosphere）上均匀采样 $N_s$ 个视点来完成，摄像机朝向中心。这些相机位姿进一步与 $N_i$ 个离散化的平面内旋转结合，生成 $N_s \cdot N_i$ 个全局位姿初始化，并作为输入传递给位姿优化器。

位姿优化 由于上述步骤生成的粗略位姿通常带有噪声，需要一个优化模块来提高位姿质量。具体来说，我们构建了一个位姿优化网络，该网络以基于粗略位姿条件渲染的目标物体图像以及从摄像机观察输入裁剪的图像为输入，输出用于改进位姿质量的位姿更新。与MegaPose [32]（在粗略位姿周围渲染多个视图以找到锚点）不同，我们观察到只需渲染一个与粗略位姿表面对应的单一视图即可。对于输入观察，不是基于恒定的2D检测裁剪，而是执行基于位姿条件的裁剪策略以为平移更新提供反馈。具体来说，我们将物体原点投影到图像空间以确定裁剪中心。然后，根据物体表面上任意两点之间的最大距离（即物体的扩展直径）稍微扩大裁剪尺寸，以包围物体及其周围上下文区域。这种裁剪方法依赖于粗略位姿，并鼓励网络更新平移参数，使裁剪更加准确地与观察结果对齐。通过将最新的更新位姿作为输入重复优化过程，可迭代地提高位姿质量。优化网络架构如图2所示；详细信息见附录。我们首先通过单个共享CNN编码器从两个RGBD输入分支中提取特征图。特征图连接后进入带有残差连接的CNN模块[17]，并通过位置嵌入划分为补丁[9]。最终，网络预测平移更新 $\Delta t \in \mathbb{R}^3$ 和旋转更新 $\Delta R \in \text{SO}(3)$ ，每个更新都通过transformer编码器[62]单独处理，并线性映射到输出维度。更具体地， $\Delta t$ 表示物体在相机坐标系中的平移更新， $\Delta R$ 表示物体方向在相机坐标系中的更新。实际中，旋转以轴角表示。我们还尝试了6D表示[78]，结果相似。输入的粗略位姿 $\; t] \in \text{SE}(3)$ 被更新为：
$t^+ = t + \Delta t \tag{8}$
$R^+ = \Delta R \otimes R \tag{9}$
其中 $\otimes$ 表示在 $\text{SO}(3)$ 上的更新操作。与使用单一的同质位姿更新不同，这种解耦表示消除了在平移更新时对更新方向的依赖，从而简化了学习过程。

Training Loss（训练损失）

网络的训练由 $L_2$ 损失函数监督：
$\mathcal{L}_{\text{refine}} = w_1 \|\Delta t - \bar{\Delta t}\|_2 + w_2 \|\Delta R - \bar{\Delta R}\|_2 \tag{10}$
其中 $\bar{\Delta t}$ 和 $\bar{\Delta R}$ 是真实值； $w_1$ 和 $w_2$ 为损失平衡权重，实验中设为1。

3.4 位姿选择

给定一组经过优化的位姿假设，我们使用一个分层位姿排序网络计算它们的分数。得分最高的位姿被选为最终估计结果。分层比较 该网络采用两级比较策略。首先，对于每个位姿假设，渲染图像会与裁剪后的输入观测进行比较，利用在第 3.3 节中介绍的基于位姿的裁剪操作。这种比较（如图 2 下部左侧所示）是通过一个位姿排序编码器执行的，该编码器使用与优化网络相同的主干架构进行特征提取。提取的特征被拼接、标记并传递到多头自注意模块，以更好地利用图像的全局上下文进行比较。位姿排序编码器执行平均池化以输出一个特征嵌入 $\mathcal{F} \in \mathbb{R}^{512}$ ，用于描述渲染图像与观测之间的对齐质量（如图 2 下部中间部分所示）。此时，我们可以直接将 $\mathcal{F}$ 投影到一个相似性标量上，如文献 [2, 32, 46] 中通常所做的。然而，这会忽略其他位姿假设，迫使网络输出一个绝对的得分分配，这可能很难学习。为了利用所有位姿假设的全局上下文以做出更明智的决策，我们引入了一个比较的第二级别，比较所有 $K$ 个位姿假设之间的上下文。对拼接的特征嵌入 $\mathcal{F} = [\mathcal{F}_0, \ldots, \mathcal{F}_{K-1}]^\top \in \mathbb{R}^{K \times 512}$ 执行多头自注意操作，该嵌入编码了所有位姿的对齐信息。通过将 $\mathcal{F}$ 作为一个序列处理，该方法自然可以泛化到 $K$ 的可变长度 [62]。我们不对 $\mathcal{F}$ 应用位置编码，以确保对排列不敏感。注意到的特征随后被线性投影到分数 $\mathcal{S} \in \mathbb{R}^K$ ，用于分配给位姿假设。这种分层比较策略的有效性在图 4 的一个典型示例中得以展示。

为了训练位姿排序网络，我们提出了一个基于位姿的三元组损失：

$\mathcal{L}(i^+, i^-) = \max(S(i^-) - S(i^+) + \alpha, 0), \tag{11}$

其中， $\alpha$ 表示对比的边距； $i^-$ 和 $i^+$ 分别表示负样本和正样本，这些样本通过使用真值计算 ADD 指标 [73] 来确定。需要注意的是，与标准三元组损失 [27] 不同，在我们的场景中，锚点样本并未在正负样本之间共享，因为输入是根据每个位姿假设裁剪的，以考虑平移变化。
尽管我们可以计算列表中每对样本的损失，但当正负样本都远离真值时，比较会变得不明确。因此，我们仅保留正样本来自接近真值的视角的那些位姿对，以使比较有意义：

$\mathcal{V}^+ = \{i : D(\mathbf{R}_i, \mathbf{\bar{R}}) < d\}, \tag{12}$

$\mathcal{V}^- = \{0, 1, 2, \ldots, K-1\}, \tag{13}$

$\mathcal{L}_{\text{rank}} = \sum_{i^+ \in \mathcal{V}^+, i^- \in \mathcal{V}^-, i^+ \neq i^-} \mathcal{L}(i^+, i^-), \tag{14}$

其中求和是关于 $i^+ \in \mathcal{V}^+, i^- \in \mathcal{V}^-, i^+ \neq i^-$ 的。 $\mathbf{R}_i$ 和 $\mathbf{\bar{R}}$ 分别是位姿假设和真值的旋转矩阵； $D(\cdot)$ 表示旋转之间的测地距离； $d$ 是预定义的阈值。我们还尝试了 InfoNCE 损失 [49]，如 [46] 中所使用，但观察到性能较差（见第 4.5 节）。我们将其归因于 [46] 中假设完美平移的情况，而这并不适用于我们的设置。

原文地址：https://blog.csdn.net/weixin_41331879/article/details/145098170

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：移动端屏幕分辨率rem,less
下一篇：STM32如何使用内部晶振作为晶振

桌面应用(wails)实现对等节点通信
P2P 是一种网络通信模式，在这种模式下，网络中的节点（对等节点或对等端）可以直接与其他节点进行通信，而不需要通过中央服务器进行中转。每个节点既可以作为客户端请求服务，也可以作为服务器提供服务，这种模
阅读更多2025-01-16
MyBatis-增删改查操作&一些细节
MyBatis-增删改查操作&一些细节
阅读更多2025-01-16
fx简单学习应用。
fx是一个golang的依赖注入框架，主要的内容有几个注入方法，以及钩子函数。下面是最简单的demo使用。
阅读更多2025-01-16
分类统计字符个数（PTA）C语言
其中char s[]是用户传入的字符串。函数须在一行内按照letter = 英文字母个数, blank = 空格或回车个数, digit = 数字字符个数, other = 其他字符个数的格式输出。
阅读更多2025-01-16
C++11
C++11是C++的第二个重要版本，并且是自C++98之后总重要的一次更新。它引入了大量更改，标准化了已有实践，并改进了对C++程序员可用的抽象。在它最终由ISO在2011年8月12日采纳前，人们曾使
阅读更多2025-01-16
element表格有横向滚动条时产生错位或者偏移（火狐浏览器）
解决方法：给表头增加竖向滚动条的宽度。
阅读更多2025-01-16
python中argparse的妙用
在编写 Python 脚本时，我们经常需要从命令行接收用户输入。Python 的argparse模块是一个强大的工具，可以帮助我们轻松解析命令行参数，并生成友好的帮助信息。本文将详细介绍argpars
阅读更多2025-01-16
计算机网络 | IP地址、子网掩码、网络地址、主机地址计算方式详解
IP地址（）是用于标识网络中每一台计算机或设备的唯一标识符。IP地址遵循网络层协议，通过数字形式（IPv4）或更长的字符形式（IPv6）表示。IP地址的作用是确保数据包能够从源设备准确地送达目标设备。
阅读更多2025-01-16
静态综合路由实验
配置静态路由，因为需要将R1,R2,R3,R4上每个网段进行汇总，且需要避免路由环路出现，所以还需要配置空接口。向r5中设置缺省路由，为了不直接编写5.5.5.0/24也能到5.5.5.0/24网段；
阅读更多2025-01-16
Python爬取豆瓣图书网Top250 实战
本文深入探讨了如何使用Python爬取豆瓣图书Top250的内容，并详细介绍了反爬虫策略、异常处理、数据清洗等技术细节。通过本文的学习，你可以掌握高效的网页爬取技术以及数据存储方法。同时，我们也强调了
阅读更多2025-01-16