Deformable Transformer论文笔记（2）

🕗 发布于 2024-10-08 21:57 transformer 论文阅读 深度学习

接上文

Deformable Transformer论文笔记（1）-CSDN博客https://blog.csdn.net/Zssss12/article/details/142564883?spm=1001.2014.3001.5501

Deformable Transformer Encoder.我们用提出的多尺度可变形注意模块替换DETR中处理特征映射的Transformer注意模块。编码器的输入和输出都是具有相同分辨率的多尺度特征图。在编码器中，我们从 ResNet (He et al., 2016) 中阶段 C3 到 C5 的输出特征图中提取多尺度特征图 {xl}l=1->L-1 (L = 4)（各层特征最终再由 1 × 1 卷积转换），其中 Cl 的分辨率比输入图像低 2^l倍。最低分辨率的特征图x^L是通过最终C5阶段的3 × 3步幅2卷积得到的，记为C6。所有多尺度特征图均为C = 256个通道。请注意，没有使用 FPN (Lin et al., 2017a) 中的自顶向下结构，因为我们提出的多尺度可变形注意力本身可以在多尺度特征图之间交换信息。多尺度特征图的构建也在附录 A.2 中进行了说明。 5.2 节中的实验表明，添加 FPN 不会提高性能。

在编码器中多尺度可变形注意模块的应用中，输出是与输入具有相同分辨率的多尺度特征图。键元素和查询元素都来自多尺度特征图的像素。对于每个查询像素，参考点本身。为了确定每个查询像素所在的特征级别，除了位置嵌入之外，我们还在特征表示中添加了尺度级嵌入，表示为 el。与具有固定编码的位置嵌入不同，尺度级嵌入 {el}L l=1 随机初始化并与网络联合训练。

（这里说的尺度级embedding说的对应了文中提到的多尺度可变形注意力）

Deformable Transformer Decoder.

解码器中有交叉注意力和自注意力模块。两种类型的注意力模块的查询元素都是对象查询。在交叉注意模块中，对象查询从特征图中提取特征，其中键元素是来自编码器的输出特征图。在自我注意模块中，对象查询彼此交互，其中键元素是对象查询。由于我们提出的可变形注意模块被设计为将卷积特征映射处理为键元素，我们只将每个交叉注意模块替换为多尺度可变形注意模块，同时保持自我注意模块不变。对于每个对象查询，参考点ˆpq的2d的归一化坐标通过可学习的线性投影和 sigmoid 函数从其对象查询嵌入中预测。

由于多尺度可变形注意模块提取参考点周围的图像特征，我们让检测头预测边界框对于参考点的相对偏移量以进一步降低优化难度。参考点被用作预测框中心的初始猜测。检测头预测预测框相对于参考点的相对偏移量。有关详细信息，请参阅附录 A.3。这样，学习到的解码器注意力将与预测的边界框有很强的相关性，这也加速了训练收敛。

通过将Transformer注意模块替换为DETR中的可变形注意模块，我们建立了一个高效、快速收敛的检测系统，称为可变形DETR(见图1)。

4.2 ADDITIONAL IMPROVEMENTS AND VARIANTS FOR DEFORMABLE DETR

由于其快速收敛和计算和内存效率，可变形 DETR 为我们利用端到端对象检测器的各种变体开辟了可能性。由于空间有限，我们在这里只介绍这些改进和变体的核心思想。实现细节在附录 A.4 中给出。

Iterative Bounding Box Refinement.这是受到光流估计中开发的迭代细化的启发(Teed & Deng, 2020)。我们建立了一种简单有效的迭代包围盒细化机制来提高检测性能。在这里，每个解码器层根据前一层的预测来细化边界框。

Two-Stage Deformable DETR.在原始 DETR 中，解码器中的对象查询与当前图像无关。受两级目标检测器的启发，我们探索了可变形 DETR 的一种变体，即生成区域提议作为第一阶段。生成的区域建议将被送入解码器作为对象查询进行进一步细化，形成两阶段可变形DETR。

（这里的红字也引出了一系列的后续工作比如Efficient DETR，DAB-DETR等等。。）

在第一阶段，为了实现高召回率的建议，多尺度特征图中的每个像素都将作为对象查询。然而，直接将对象查询设置为像素会给解码器中的自我注意模块带来不可接受的计算和内存成本，其复杂性与查询的数量成二次增长。为了避免这个问题，我们删除了解码器，并形成了用于区域提议生成的仅编码器可变形 DETR。其中，每个像素都被指定为对象查询，它直接预测边界框。选择得分最高的边界框作为区域建议。在将区域建议馈送到第二阶段之前，没有应用NMS。

参考文献

Deformable DETR｜ 3、Deformable Attention、MSDeformAttention、流程讲解_哔哩哔哩_bilibilihttps://www.bilibili.com/video/BV1Uj411z7QU/?spm_id_from=333.788&vd_source=ae3f1ec4d3d413e8531d6bbc07cd4394

原文地址：https://blog.csdn.net/Zssss12/article/details/142767031

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：CSS 效果：实现动态展示双箭头
下一篇：Java 实现 Feed 流实时更新数据的设计与实现

职场中的人情世故，你懂了多少？
事情可以干，可以做得好，但是不要炫耀自己是天下第一。职场上的各种光怪陆离现象，有很多职场人吐槽：“人情世故难过大学高数“，“工作之后才知道，高考是你所能经历的最公平的事”，“钱难挣，屎难吃，全是坑”。
阅读更多2024-10-08
深度学习中的结构化概率模型 - 学习依赖性的关系篇
在深度学习的探索之旅中，结构化概率模型以其独特的能力，在学习数据间复杂依赖关系方面展现出非凡的潜力。传统模型往往难以有效捕捉变量间错综复杂的相互作用，而结构化概率模型则通过引入结构化的先验知识，使得模
阅读更多2024-10-08
TypeScript 算法手册【选择排序】
选择排序是一种简单直观的排序算法。它的工作原理是: 在未排序序列中找到最小(大)元素，存放到排序序列的起始位置，再从剩余未排序元素中继续寻找最小(大)元素，接着放到已排序序列的末尾。以此类推，直到所有
阅读更多2024-10-08
Python操作TXT文本：从入门到精通
通过本文的介绍，您已经掌握了Python操作TXT文本的基本方法，包括读取和写入文本内容、处理文本内容以及分割和合并文本。这些技能在数据分析、自动化脚本编写、网站内容管理等领域都有广泛的应用。希望本文
阅读更多2024-10-08
旋转位置编码Rope
大模型都在用的：旋转位置编码-CSDN博客https://zhuanlan.zhihu.com/p/690726751
阅读更多2024-10-08
2024四大剪辑软件推荐及下载地址介绍！
在这个数字时代，视频成为了我们记录生活、分享故事的重要手段。无论是专业摄影师还是业余爱好者，都需要一款好用的视频剪辑软件来将自己的创意变为现实。下面，我将为大家介绍几款各有特色的视频剪辑工具，同时也附
阅读更多2024-10-08
【AI知识点】反向传播（Backpropagation）
反向传播（Backpropagation）是训练神经网络的核心算法，它通过反向逐层计算损失函数对每个权重的梯度，来反向逐层更新网络的权重，从而最小化损失函数。
阅读更多2024-10-08
如何使用Immersity AI将图片转换成3D效果视频
通过以上简单的五个步骤，你就可以利用Immersity AI将图片转换成3D效果视频。无论是艺术创作、营销宣传，还是个人兴趣，你都可以尝试这一技术，提升你的作品质量。系统会开始处理你的请求，并生成3D
阅读更多2024-10-08
Python的多线程与多进程：并发编程基础与实战
本文详细介绍了Python中的并发编程，涵盖多线程、多进程和异步编程（asyncio）的基本原理和应用场景。文章分析了各技术的优势和局限，并通过代码示例展示了如何使用threading、multipr
阅读更多2024-10-08
多线程编程的利器：C++线程锁深度解析
在多线程编程中，线程锁是确保数据一致性和防止竞态条件的关键机制。C++11及之后的版本提供了多种线程锁，以满足不同场景下的并发控制需求。以下将详细分析几种常见的C++线程锁的原理、应用场景、优缺点，并
阅读更多2024-10-08

Deformable Transformer论文笔记（2）

相关文章