Cross Modal Transformer: Towards Fast and Robust 3D Object Detection

🕗 发布于 2024-11-09 10:27 人工智能 深度学习

代码地址

1. 引言

在本文中，我们提出了Cross-Modal Transformer（CMT），这是一种简单而有效的端到端管道，用于鲁棒的3D对象检测（见图1（c））。首先，我们提出了坐标编码模块（CEM），它通过将3D点集隐式编码为多模态标记来生成位置感知特征。具体来说，对于相机图像，从视锥体空间采样的3D点用于指示每个像素的3D位置的概率。而对于LiDAR，BEV 坐标只是简单地编码到点云标记中。接下来，我们介绍位置引导查询。每个查询都按照PETR［26］初始化为3D参考点。我们将参考点的3D坐标变换到图像和LiDAR空间，以在每个空间中执行相对坐标编码。

与现有方法相比，所提出的CMT框架具有许多优点。首先，我们的方法是一个简单的端到端管道，可以轻松扩展。3D位置被隐式编码到多模态特征中，这避免了引入显式跨视图特征对齐引起的偏差。其次，我们的方法仅包含基本操作，没有对多模态特征进行特征采样或复杂的2D到3D视图转换。它实现了最先进的性能，并且与现有方法相比显示出明显的优越性。第三，我们的CMT的鲁棒性比其他现有方法强得多。

极端的是，在LiDAR未命中的情况下，与那些基于视觉的3D物体检测器相比，我们仅使用图像标记的CMT可以实现相似的性能［23,26］。

总而言之，我们的贡献是：

我们提出了一种快速且强大的3D检测器，这是一个真正的端到端框架，无需任何后处理。它克服了传感器丢失的问题。
3D位置被编码到多模式标记中，无需任何复杂的操作，例如网格采样和体素池。
CMT 在nuScenes数据集上实现了最先进的3D检测性能。它为未来的研究提供了一个简单的基线。

图1 BEVFusion、TransFusion 之间的比较以及我们建议的 CMT。 (a) 在 BEVFusion 中，相机功能通过视图变换将图变换到 BEV 空间。两个模态特征在 BEV 空间中串联起来，采用BEV编码器进行融合。 (b) 先输血从 Li- 的高响应区域生成查询雷达特征。之后，对象查询与点交互云特征和图像特征分开。 (c) 在 CMT 中，对象查询直接与多模态功能交互同时。添加位置编码（PE）用于对齐的多模态特征。 “VT”是视图从图像到 3D 空间的变换。

图2 左：CMT 与现有方法之间的性能比较。所有速度统计数据均在单个Tesla A100 GPU 使用官方存储库的最佳模型。右：传感器缺失情况下 CMT 的性能评估。在推理过程中，CMT 在 LiDAR 缺失的情况下实现了基于视觉的性能，表现出很强的鲁棒性。

2. 相关工作

2.1. 基于相机的3D目标检测

早期的工作主要遵循密集预测流程。首先在图像平面上定位物体，然后预测其相关的 3D 属性，如深度、尺寸和方向。然而对于环视摄像头，基于透视视图的设计需要精心的后处理来消除重叠区域的冗余预测。BEV 表示提供了一个统一的坐标来融合来自多个摄像头视图的信息。LSS、BEVDet和BEVDepth预测深度分布，将图像特征提升到 3D 视锥体网格。DETR3D和BEVFormer将预定义的 BEV 查询投影到图像上，然后使用 Transformer 注意力来对多视图特征的关系进行建模。这些方法明确地将局部图像特征从 2D 透视视图投影到 BEV。PETR和 SpatialDETR采用依赖于摄像头姿态的位置嵌入，允许 Transformer 隐式地学习从图像视图到 3D 空间的投影。

2.2. 基于激光雷达的3D目标检测

基于激光雷达的 3D 物体检测旨在使用从激光雷达捕获的点云来预测 3D 物体的边界框。现有的方法将点云处理成不同的表示形式。基于点的方法直接从原始点云中提取特征并预测 3D 边界框。PointNet是第一个以端到端的方式处理点云的架构，它保留了点云的空间特征。其他方法将无序、不规则的激光雷达点云投影到规则的特征空间，如 3D 体素、特征柱和距离图像。然后使用标准的 2D 骨干网络在 BEV 平面中提取特征。VoxelNet首先将原始点云划分为规则的体素网格，然后使用 PointNet 网络从每个体素网格中的点提取特征。

2.3. 多模态3D目标检测

3D检测中的多传感器融合近年来引起了广泛关注。最先进的（SoTA）方法倾向于为两种模态找到统一的表示，或者定义对象查询来融合特征以进行进一步的预测。例如，BEVFusion［24,28］应用lift-splatshoot（LSS）操作将图像特征投影到BEV空间上，并将其与LiDAR特征连接起来。UVTR［20］通过可变形注意力［57］在3D体素空间中生成统一的表示。而对于基于查询的方法，FUTR3D［8］将3D参考点定义为查询，并直接从投影平面的坐标中对特征进行采样。TransFusion［1］采用两级管道。这些建议由LiDAR特征生成，并通过查询图像特征进一步细化。

图3．Cross-Modal Transformer（CMT）范例的架构。多视图图像和点云被输入到两个骨干网络以提取特征标记。在坐标编码模块中，相机光线和BEV位置的坐标分别转换为图像位置编码（ImPE）和点云位置编码（PCPE）。查询由位置引导查询生成器生成。在查询生成器中，3D锚点被投影到不同的模态，并且相对坐标被编码（参见右侧部分）。多模态令牌进一步与转换器解码器中的查询交互。更新后的查询进一步用于预测3D边界框。

3. 方法

该方法主要分为五部分：1）backbone，提取图像和点云特征（通用模块，不介绍），2）坐标编码模块，得到position-aware多模态tokens，3）position-guided query generator，计算position-aware queries，4）decoder和loss，5）masked-modal training。

3.1. 坐标编码模块（CEM）

坐标编码模块（CEM）用于将 3D 位置信息编码为多模态标记。它生成相机和 BEV 位置编码（PE），分别添加到图像标记和点云标记中。在 CEM 的帮助下，多模态标记可以在 3D 空间中隐式对齐。

3.2. Position-guided Query Generator

继 Anchor-DETR [48] 和 PETR [29] 之后，我们首先用从 [0, 1] 之间的均匀分布中采样的 n 个锚点 $A = \left \{ a_i = (a_{x,i}, a_{y,i}, a_{z,i}), i = 1, 2,\cdots, n \right \}$ 初始化查询。然后，这些锚点通过线性变换转换到 3D 世界空间：

3.3. Decoder和Loss

至于解码器，我们遵循 DETR中的原始 Transformer 解码器，并使用 L 个解码器层。对于每个解码器层，位置引导的查询与多模态标记进行交互并更新它们的表示。使用两个前馈网络（FFN）通过更新后的查询来预测 3D 边界框和类别。

3.4. Masked-Modal Training

对于自动驾驶系统来说，安全性是最重要的关注点。一个理想的系统即使部分出现故障也需要有可靠的性能，并且不能依赖于任何特定模态的输入。最近，BEVFusion [27] 已经对激光雷达传感器故障的鲁棒性进行了探索。然而，这种探索仅限于有限的扫描范围，并且模型需要重新训练。在本文中，我们尝试了更极端的故障情况，包括单个摄像头缺失、摄像头缺失和激光雷达缺失。这与实际场景相符，并能确保自动驾驶的安全性。

为了提高模型的鲁棒性，我们提出了一种称为掩码模态训练的训练策略。在训练过程中，我们随机仅使用单一模态（如摄像头或激光雷达）进行训练，比例分别为 $\eta_1$ 和 $\eta_2$ 。这种策略确保模型在单一模态和多模态下都能得到充分训练。然后，模型可以在单一模态或多模态下进行测试，而无需修改模型权重。实验结果表明，掩码模态训练不会影响我们融合模型的性能。即使激光雷达损坏，它仍然能够实现与最先进的基于视觉的 3D 探测器类似的性能。

图4 我们在测试阶段分析了 CMT 系统在三种模拟传感器错误下的鲁棒性：（a）单个摄像头缺失，（b）所有摄像头缺失，（c）激光雷达缺失。

4. 实验

分析一个有意思的图。下图中蓝色是初始queries在图像上的投影，红色是最终预测queries的投影，可以看到，queries最终会移动到离其较近的前景物体上。

5. 总结与讨论

在本文中，我们提出了一个完全端到端的框架用于多模态 3D 物体检测。它隐式编码将 3D 坐标转化为图像和点的标记云。通过坐标编码，简单而有效可采用主动DETR管道进行多模态融合以及端到端的学习。通过蒙面模态训练，我们的多模态检测器可以学习，具有很强的鲁棒性，即使错过了多种模式中的一种。我们希望这样的简单的管道设计可以提供更多关于端到端 3D 物体检测。

参考文献

https://blog.51cto.com/u_16282361/7754113

https://zhuanlan.zhihu.com/p/647627947

【论文笔记】Cross Modal Transformer: Towards Fast and Robust 3D Object Detection_cross model transformer:towards fast and robust 3d-CSDN博客

https://zhuanlan.zhihu.com/p/656231643

原文地址：https://blog.csdn.net/xhtchina/article/details/116534688

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：清理 brew 安装的 opencv 的依赖
下一篇：Qt编译lua库并调用

Windows电脑本地部署llamafile并接入Qwen大语言模型远程AI对话实战
Windows电脑本地部署llamafile并接入Qwen大语言模型远程AI对话实战
阅读更多2024-11-23
解决vm虚拟机中ctrl键粘滞问题（一直处于按下状态）
虚拟机中点击鼠标左键没有问题，单独按下键盘也没有问题，但是如果按下键盘的同时在按下鼠标左键就会卡住。而且100%稳定复现。发现问题原因：vm版本的问题，我的版本是17.5.0，升级成17.5.2 bu
阅读更多2024-11-23
第十章 JavaScript的应用
10.1.1 JavaScript简介1 简单性JavaScript 设计之初就考虑到了非专业程序员的使用，因此它的语法相对简单，容易上手。2 动态性JavaScript 是一种解释型语言，代码可以在
阅读更多2024-11-23
非root用户安装CUDA
4.下载完成后执行.run文件，需要添加两个参数，一个是--override，用于跳过某些检查或限制；另一个是--toolkitpath，它表示安装路径，必须是自己目录下面的路径，如果是根目录就会安装
阅读更多2024-11-23
Python操作neo4j库py2neo使用之py2neo 删除及事务相关操作（三）
【代码】## Python操作neo4j库py2neo使用之py2neo 删除及事务相关操作（三）
阅读更多2024-11-23
【通俗理解】Jensen不等式与变分分布q(z)在积分计算中的应用
Jensen不等式 #变分分布 #积分计算 #期望 #凸函数 #优化问题 #下界估计 #机器学习。
阅读更多2024-11-23
「Mac玩转仓颉内测版27」基础篇7 - 字符串类型详解
本篇将介绍 Cangjie 中的字符串类型，包括字符串的定义、字面量形式、插值表达、常用操作及应用场景，帮助开发者熟练掌握字符串的使用。
阅读更多2024-11-23
数据科学与SQL：组距分组分析 | 区间分布问题
绝对值分布分析也可以理解为组距分组分析。对于某个指标而言，一个记录对应的指标值的绝对值，肯定落在所有指标值的绝对值的最小值和最大值构成的区间内，根据一定的算法，在把这个区间划分为等距离的几个小区间，，
阅读更多2024-11-23
c++编译报C1004错误的原因及解决办法
可能是你的代码文件最后没有正确的结束符，或者是缺少了一些必要的头文件或语句。默认磁盘驱动器没有足够的空间用于临时文件，需要大约两倍于源文件的空间。编译器到达了源文件尾但未解析构造。计算结果为假的 #i
阅读更多2024-11-23
mysql 去重补全取出重复变量函数和存储过程
mysql 去重补全取出重复变量函数和存储过程
阅读更多2024-11-23