深度学习论文: MobileSAMv2: Faster Segment Anything to Everything
深度学习论文: MobileSAMv2: Faster Segment Anything to Everything
MobileSAMv2: Faster Segment Anything to Everything
PDF:https://arxiv.org/pdf/2312.09579
PyTorch: https://github.com/shanglianlm0525/PyTorch-Networks
1 概述
SAM模型应对两大分割任务的挑战:SegAny,针对单一感兴趣对象的分割;SegEvery,负责图像中所有对象的分割。SAM在SegAny任务上的效率问题已通过MobileSAM的知识蒸馏技术得到优化。然而,SegEvery任务的效率瓶颈在于其掩码解码器,这一问题通过直接生成有效掩码的方式得到改进,避免了冗余的网格搜索和后续过滤步骤。
本文提出的改进方法显著提升了效率,将掩码解码器的处理时间减少了至少16倍,并在性能上取得了3.6%的平均提升(LVIS数据集上的掩码AR@K指标从38.9%提高到42.5%)。
2 MobileSAMv2
SegEvery任务通过网格搜索前景点来激活图像编码器,但稀疏的网格可能会漏检小物体或重要的对象部分。为解决这一问题,SegEvery采用了64×64点的高密度网格,虽然提高了检测率,却也导致对大物体的冗余提示。这种方法首先生成大量多于所需的掩码,然后通过过滤去除多余的部分。
本文提出一种更高效的提示采样方法,通过直接生成有效的掩码来简化流程,节省时间和资源。现代目标检测技术,如YOLOv8,能够提供所需的对象感知提示,通过边界框定位对象,有效减少歧义并提高效率。
MobileSAMv2 提出使用对象感知的框提示替代默认的网格搜索点提示,大幅提升速度并提高整体性能。核心方法是用对象感知提示采样替代默认的网格搜索,利用现代目标检测确定图像中的对象位置。
Object-Aware Prompt Sampling 对象感知提示采样
采用对象发现技术来避免繁琐的搜索,通过现代目标检测模型定位对象,但不包括分类头。选择YOLOv8模型并用开放世界数据集进行训练,以生成重叠的边界框,然后通过NMS过滤,选择框的中心或直接使用框作为提示(实际使用框提示)。
Prompt-guided Mask Decoding 提示引导掩码解码
遵循SAM的方法批量执行掩码解码,SAM的掩码解码器接受框作为输入,可以直接使用过滤后的框来引导解码,避免了复杂的掩码过滤过程,提高了效率。
3 Experiments
原文地址:https://blog.csdn.net/shanglianlm/article/details/140381296
免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!