Transformer with Transfer CNN for Remote-Sensing-Image Object Detection

🕗 发布于 2024-04-18 15:28 transformer cnn 目标检测

遥感图像（RSI）中的目标检测始终是遥感界一个充满活力的研究主题。最近，基于深度卷积神经网络 (CNN) 的方法，包括基于区域 CNN 和基于 You-Only-Look-Once 的方法，已成为 RSI 目标检测的事实上的标准。 CNN 擅长局部特征提取，但在捕获全局特征方面存在局限性。然而，基于注意力的变压器可以获取远距离的 RSI 关系。因此，本研究对用于遥感目标检测（TRD）的变压器进行了研究。具体来说，所提出的 TRD 是 CNN 和带有编码器和解码器的多层 Transformer 的组合。为了从 RSI 中检测对象，修改后的 Transformer 被设计为聚合多个尺度上的全局空间位置的特征，并对成对实例之间的交互进行建模。然后，由于源数据集（例如ImageNet）和目标数据集（即RSI数据集）差异较大，为了减少数据集之间的差异，将TRD与传输CNN（T- 提出了基于注意力机制的TRD）来调整预训练模型以实现更好的RSI目标检测。由于Transformer的训练总是需要丰富的、注释良好的训练样本，而RSI目标检测的训练样本数量通常是有限的，为了避免过拟合，数据增强与Transformer相结合来提高RSI的检测性能。所提出的带有数据增强的 T-TRD（T-TRD-DA）在两个广泛使用的数据集（即 NWPU VHR-10 和 DIOR）上进行了测试，实验结果表明所提出的模型提供了有竞争力的结果（即，与竞争基准方法相比，百倍平均精度为 87.9 和 66.8，最多分别比 NWPU VHR-10 和 DIOR 数据集上的比较方法高出 5.9 和 2.4，这表明基于 Transformer 的方法打开了 RSI 对象检测的新窗口。
在这里插入图片描述
综上所述，本研究的主要贡献如下。
(1) 提出了一种基于 Transformer 的端到端 RSI 对象检测框架 TRD，其中对 Transformer 进行了改造，以有效地集成全局空间位置的特征并捕获特征嵌入和对象实例的关系。此外，引入可变形注意模块作为所提出的TRD的重要组成部分，它仅关注稀疏的采样特征集并缓解高计算复杂度的问题。因此，TRD 可以处理多个尺度的 RSI，并从 RSI 中识别出感兴趣的对象。
(2)使用预训练的CNN作为特征提取的主干。此外，为了减轻两个数据集（即ImageNet和RSI数据集）之间的差异，T-TRD中使用注意力机制对特征进行重新加权，进一步提高了RSI检测性能。因此，预训练的主干可以更好地迁移并获得有判别性的金字塔特征。
(3)数据增强，包括样本扩展和多样本融合，用于丰富训练样本的方向、尺度和背景的多样性。在提出的 T-TRD-DA 中，减轻了使用不足的训练样本进行基于 Transformer 的 RSI 目标检测的影响。

在这里插入图片描述
所提出的基于 Transformer 的 RSI 对象检测框架的概述架构。

图 2 显示了拟议 TRD 的框架。首先使用 CNN 主干从 RSI 中提取金字塔多尺度特征图。然后将它们嵌入 2D 位置编码并转换为可以输入 Transformer 的序列。 Transformer 被改造，以处理图像嵌入序列并对检测到的对象实例进行预测。
Transformer 中的 MHSA 聚合了输入的元素，并且不区分它们的位置；因此，Transformer 具有排列不变性。为了缓解这个问题，我们需要在特征图中嵌入空间信息。因此，𝐿之后
-级特征金字塔{𝒙𝑙}𝐿𝑙=1 从卷积主干中提取，在每个级别补充二维位置编码。具体来说，将原始 Transformer 的正弦和余弦位置编码分别扩展到列和行位置编码。它们都是通过对行或列的维度以及𝑑的一半进行编码获得的
通道，然后复制到另一个空间维度。最终的位置编码与它们连接起来。
为了增强小物体实例的检测性能，探索了利用多尺度特征图的想法，其中低层次和高分辨率的特征图有利于识别小物体。然而，高分辨率特征图导致传统的基于 MHSA 的 Transformer 的计算和存储复杂度很高，因为 MHSA 层测量每对参考点的兼容性。相比之下，可变形注意力模块仅关注参考点周围几个自适应位置处的一组固定数量的基本采样点，这极大地降低了计算和存储复杂度。因此，Transformer可以有效地扩展到RSI多尺度特征的聚合。
图 3 显示了可变形注意力模块的示意图。该模块为每个尺度级别中的每个元素生成特定数量的采样偏移和注意力权重。不同级别地图采样位置的特征被聚合为空间和比例感知元素。
在这里插入图片描述

原文地址：https://blog.csdn.net/qq_43578042/article/details/137873869

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：康耐视visionpro-CogBlobTool工具操作详细说明
下一篇：什么是显卡服务器？

PL/SQL执行.sql文件
版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。原文链接：https://blog.csdn.net/iamlzyoco/article/det
阅读更多2024-11-14
PyAEDT：Ansys Electronics Desktop API 简介
在本文中，我将向您介绍 PyAEDT，这是一个 Python 库，旨在增强您对 Ansys Electronics Desktop 或 AEDT 的体验。通过利用 PyAADT 的强大功能，您可以将分
阅读更多2024-11-14
Python从0到100（七十二）：Python OpenCV-OpenCV实现手势音量控制（文末送书）
本次实验需要使用OpenCV和mediapipe库进行手势识别，并利用手势距离控制电脑音量。cv2：OpenCV库，用于读取摄像头视频流和图像处理。mediapipe：mediapipe库，用于手部关
阅读更多2024-11-14
YOLOv11多模态结合CFT模块融合可见光+红外光双输入
这期是在上期YOLOv10的基础上，使用YOLOv11结合Transformer复现了论文《Cross-Modality Fusion Transformer for Multispectral Ob
阅读更多2024-11-14
鸿蒙学习生态应用开发能力全景图-三方库（3）
鸿蒙生态三方库，是在鸿蒙系统上可重复使用的软件库，可帮助开发者重用技术资产，快速开发鸿蒙生态应用、元服务，提升开发效率。鸿蒙生态中心仓聚合了丰富的鸿蒙生态开发三方库，方便开发者一站式获取。 C/C+
阅读更多2024-11-14
android studio新建activity提示 require androidX support
在Android Studio中创建Activity时出现的“require androidX support”提示通常意味着你的项目配置需要使用AndroidX库来支持。AndroidX是原Andr
阅读更多2024-11-14
Brave127编译指南 Windows篇：部署depot_tools（三）
在下一篇文章《Brave127编译指南 Windows篇：配置Git（四）》中，我们将详细讲解如何在Windows系统上安装和配置Git，为您的开发工作提供全面的版本控制支持。在Brave浏览器的编译
阅读更多2024-11-14
去地面算法——depth_clustering算法调试（1）
depth_clustering算法调试
阅读更多2024-11-14
网络安全与零信任架构：构建新一代信息保护体系
作为一种全新的网络安全理念，零信任架构（Zero Trust Architecture, ZTA）重新定义了信息保护的方式，强调对所有访问请求的验证与监控，以实现更高的安全性。而零信任架构是当前网络安
阅读更多2024-11-14
【3D Slicer】的小白入门使用指南四
● 开放解剖（OA）浏览器是由神经影像分析中心开发的，基于网络浏览器技术构建的图谱查看器。● OA浏览器将解剖模型和分割图像与语义信息结合起来。本教程提供了对OA浏览器技术的介绍。本教程中的示例基于S
阅读更多2024-11-14

Transformer with Transfer CNN for Remote-Sensing-Image Object Detection

相关文章