全景分割开源宝藏
Panoptic Segmentation(全景分割) 是一种计算机视觉任务,结合了语义分割和实例分割,旨在提供对场景的全面理解。目的是将图像分割成具有语义意义的部分或区域,同时检测和区分这些区域内的各个物体实例。在给定的图像中,每个像素都会被分配一个语义标签,而属于“物体”(可计数的具有实例的物体,如汽车和人)类别的像素会被赋予唯一的实例ID。
图源:论文[Panoptic Segmentation]
在语义分割篇和实例分割篇已对语义分割和实例分割相关的开源模型进行了汇总,本篇继续收集全景分割相关开源模型,助力开发人员的研究进程,轻松获取所需算法与数据。
模型
OOOPS
本次研究引入一个新任务,open panoramic segmentation(开放全景分割),针对狭窄的视场、类别范围的限制、全景标签的匮乏三个挑战性问题,分别以开放视场、开放词汇、开放领域作为解决方案。模型在狭窄视场的针孔源领域中以开放词汇的设置进行训练,而在宽视场的全景目标领域中进行评估。
提出 OOOPS 模型,由一个冻结的 CLIP 模型和一个关键组件DAN(可变形适配器网络)组成,用于将冻结的CLIP模型的零样本学习能力从针孔领域转移到不同的全景领域。引入RERP(随机等距投影),解决物体变形和图像失真。
OOOPS 模型搭配 RERP 在 WildPASS、Stanford2D3D 和 Matterport3D 上分别超越了其他最先进的开放词汇分割方法,mIoU 提高了 +2.2% 、+2.4%和+0.6%。
-
参考论文:Open Panoramic Segmentation(ECCV 2024)
-
论文地址:https://arxiv.org/abs/2407.02685
-
开源地址:https://github.com/JunweiZheng93/OPS
Panoptic SegFormer
Panoptic SegFormer,一个基于 Transformer 的端到端全景分割通用框架,由 transformer 编码器、位置解码器、掩码解码器组成,其中:
-
transformer 编码器用于细化主干给出的多尺度特征图;
-
位置解码器用于捕获物体的位置线索;
-
掩码解码器用于最终分类和分割。
在COCO test-dev split上实现了50.0% PQ,大大超过了以前的SOTA方法。使用更强的PVTv2-B5主干网络,Panoptic SegFormer在COCO test-dev split上实现了54.1% PQ 和54.4% PQ 的新记录。
-
参考论文:Panoptic SegFormer: Delving Deeper into Panoptic Segmentation with Transformers(CVPR2022)
-
论文地址:https://arxiv.org/pdf/2109.03814v4
-
开源地址:https://github.com/zhiqi-li/Panoptic-SegFormer
PanopticFCN
Panoptic FCN 简单、强大且高效的全景分割框架,旨在通过一个统一的全卷积管道同时预测things 和 stuff。
具体来说,主要由 kernel generator、kernel fusion 和eature encoder 组成。
Kernel Generator 由 Kernel Head 和 Position Head 两个分支构成,首先同时预测thing 和 stuff 的位置,其中,thing 通过预测中心点(centers)来定位和分类,stuff通过预测区域(regions)来定位和分类,然后根据 thing 和 stuff 的位置,从KernelHead 中产生 kernels 权重。
Feature Encoder 用来对高分辨率特征进行编码,最后将得到的 kernels 权重和编码特征融合得到最终预测结果。
Panoptic FCN 实现了真正的 End-to-End 全景分割,推理速度快,效果好。
-
参考论文:Fully Convolutional Networks for Panoptic Segmentation(CVPR2021 Oral)
-
论文地址:https://arxiv.org/pdf/2012.00720
-
开源地址:https://github.com/dvlab-research/PanopticFCN
Panoptic-DeepLab
Panoptic-DeepLab 采用 dual-context 和 dual-decoder 模块来进行语义分割和实例分割的预测。在网络骨干的最后一个模块中应用了 atrous convolution (空洞卷积),以提取更密集的特征图。上下文模块中使用了 ASPP (空洞空间金字塔池化),同时在每个上采样阶段采用了一个由单一卷积组成的轻量级解码器模块。
实例分割预测是通过预测物体中心,并将每个前景像素(即预测为“物体”类别的像素)回归到其对应的中心来获得的。然后,预测的语义分割和类无关的实例分割通过 DeeperLab 提出的“majority vote”规则进行融合,生成最终的全景分割结果。
Panoptic-DeepLab 是首个自下而上且单次推理的全景分割模型,在多个公共基准上达到了最先进的性能,并实现了接近实时的端到端推理速度。
-
参考论文:Panoptic-DeepLab:Simple, Strong, and Fast Baseline for Bottom-Up Panoptic Segmentation(CVPR 2020)
-
论文地址:https://arxiv.org/pdf/1911.10194v3
-
开源地址:https://github.com/bowenc0221/panoptic-deeplab
SuperCluster
SuperCluster 是基于 superpoint 的架构,用于基于 SPT 对(超大)三维场景进行全景分割。与现有方法相比,该模型在三个主要方面有所不同:
-
可扩展的图聚类:将全景分割任务视为一个可扩展的图聚类问题,可以在不预先设置预测物体数量的情况下高效地解决,从而适应大规模场景的处理。
-
部监督:使用神经网络来预测图聚类问题的参数,并通过辅助损失进行监督,且无需实际的分割。避免了计算密集型的非最大抑制(NMS)或实例匹配步骤。
-
仅基于超点的分割:该方法可以轻松地适应基于超点的处理。特征计算、监督和预测完全在超点层面进行,而不是在单个点上,从而显著减少了复杂性。
因此,SuperCluster 在保证高精度的同时,特别高效、快速且可扩展。贡献如下:
-
大规模全景分割:SuperCluster 显著提高了两个室内扫描数据集的全景分割最先进性能:在 S3DIS Fold5 数据集上达到 50.1 PQ(提升7.8),在 ScanNetV2 数据集上达到 58.7 PQ(提升25.2)。还首次为 S3DIS 6-fold 和两个大规模基准(KITTI-360和DALES)设定了全景分割的最先进性能。
-
快速且可扩展的分割:SuperCluster 仅包含 209k 个可训练参数(其中骨干网络部分为205k),但其表现超过了 30 倍大的网络。SuperCluster 的推理速度与最快的实例分割方法相当,且训练速度提高了多达 15 倍:S3DIS一个fold训练需要4小时,ScanNet训练需要6小时。
-
参考论文:Scalable 3D Panoptic Segmentation As Superpoint Graph Clustering(3DV 2024 Oral)
-
论文地址:https://arxiv.org/abs/2401.06704
-
开源地址:https://github.com/drprojects/superpoint_transformer
数据集
Waymo Open Dataset
全景视频全景分割数据集是一个大规模的数据集,提供了用于自动驾驶的高质量全景分割标签。该数据集包含 28 个语义类别的标签和 2,860 个时间序列,这些数据是通过安装在自动驾驶车辆上的五个摄像头在三个不同地理位置拍摄的,共计 100,000 张带标签的摄像头图像。
-
参考论文:Waymo Open Dataset:Panoramic Video Panoptic Segmentation
-
论文地址:https://arxiv.org/pdf/2206.07704v1
-
下载地址:https://waymo.com/open
PASTIS
PASTIS 是一个用于农业用地的全景和语义分割基准数据集,数据来自卫星时间序列,包含 2,433 个法国本土区域的图像块,每个图像块都有全景注释(包括每个像素的实例索引和语义标签)。每个图像块都是一个具有可变长度的 Sentinel-2 多光谱图像时间序列。
-
参考论文:Panoptic Segmentation of Satellite Image Time Series with Convolutional Temporal Attention Networks (ICCV 2021)
-
论文地址:https://arxiv.org/abs/2107.07933
-
开源地址:https://github.com/VSainteuf/utae-paps
-
下载地址:https://github.com/VSainteuf/pastis-benchmark
HOI4D
HOI4D 是一个大规模的 4D 自我中心数据集,提供了丰富的注释,旨在促进类别级人-物体交互(HOI)研究。HOI4D 包含 240 万帧 RGB-D 自我中心视频帧,涵盖 4000 多个序列,数据由 9 名参与者收集,在 610 个不同的室内房间中与来自 16 个类别、800 种不同物体实例进行交互。数据集提供了逐帧的注释,包括全景分割、运动分割、3D 手部姿态、类别级物体姿态和手部动作,同时还提供了重建的物体网格和场景点云数据。
-
参考论文:HOI4D: A 4D Egocentric Dataset for Category-Level Human-Object Interaction(CVPR2022)
-
论文地址:https://arxiv.org/abs/2203.01577
-
下载地址:https://hoi4d.github.io/
VIPSeg
VIPSeg 是一个用于视频全景分割任务的新型大规模数据集,旨在为视频中的所有像素分配语义类别并跟踪身份。包含 3,536 个视频和 84,750 帧具有像素级全景标注的数据,覆盖了广泛的现实场景和类别,是首个尝试在多样化的现实场景中解决具有挑战性的视频全景分割任务。
-
参考论文:Large-scale Video Panoptic Segmentation in the Wild: A Benchmark(CVPR 2022)
-
论文地址:https://openaccess.thecvf.com/content/CVPR2022/html/Miao_Large-Scale_Video_Panoptic_Segmentation_in_the_Wild_A_Benchmark_CVPR_2022_paper.html
-
下载地址:https://github.com/vipseg-dataset/vipseg-dataset
原文地址:https://blog.csdn.net/m0_49711991/article/details/144747272
免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!