Transformer中的Self-Attention机制如何自然地适应于目标检测任务

🕗 发布于 2024-11-22 09:27 目标检测算法 人工智能

Transformer中的Self-Attention机制如何自然地适应于目标检测任务：

特征图的降维与重塑

首先，Backbone（如ResNet、VGG等）会输出一个特征图，这个特征图通常具有较高的通道数、高度和宽度（例如C×H×W）。为了将其输入到Transformer中，通常会先通过一个1×1的卷积核进行降维，将通道数减少到d（这是为了降低计算复杂度并保持信息的有效性）。
降维后的特征图尺寸变为d×H×W，然后这个三维张量被reshape成一个二维张量d×HW，其中HW是特征图上的总像素数（高度乘以宽度）。这个二维张量的每一行代表一个“token”，它包含了对应像素位置上的信息。

Self-Attention机制

Self-Attention机制在Transformer的Encoder阶段，会计算一个HW×HW的Attention Matrix（注意力矩阵）。这个矩阵的每一个元素代表了一个token（即特征图上的一个点）对另一个token的注意力权重。

Attention Matrix

Attention Matrix与目标检测关键的观点在于：由于token的数量与特征图上的像素个数相同，因此Attention Matrix上的每一个值实际上都考虑了特征图空间上的两个点。这两个点可以看作是构建了一个潜在的bounding box的左上角和右下角（或者任意两个对角点，这取决于你如何解释这些点）。
从这个角度来看，当神经网络基于Attention Matrix进行思考时，它实际上也在对潜在的bounding box进行思考。这是因为Attention Matrix中的权重反映了特征图上不同位置之间的关联性和重要性，这些关联性和重要性对于确定物体的位置和形状（即bounding box）至关重要。

总结：对目标检测任务的利好

由于Self-Attention机制能够自然地捕捉特征图上的空间关系，并且这些关系可以被解释为潜在的bounding box，因此这对于目标检测任务是非常有利的。它允许模型在不需要额外处理或特殊层的情况下，就能够学习到物体的位置和形状信息。总的来说，这个观点强调了Transformer的Self-Attention机制与目标检测任务之间的自然联系，并解释了为什么Transformer在目标检测领域也取得了显著的成功。

原文地址：https://blog.csdn.net/weixin_51397022/article/details/143957291

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：《企业网络安全架构与实战指南：从蓝队防御到零信任网络部署》
下一篇：神经网络问题之：梯度不稳定

Windows电脑本地部署llamafile并接入Qwen大语言模型远程AI对话实战
Windows电脑本地部署llamafile并接入Qwen大语言模型远程AI对话实战
阅读更多2024-11-23
解决vm虚拟机中ctrl键粘滞问题（一直处于按下状态）
虚拟机中点击鼠标左键没有问题，单独按下键盘也没有问题，但是如果按下键盘的同时在按下鼠标左键就会卡住。而且100%稳定复现。发现问题原因：vm版本的问题，我的版本是17.5.0，升级成17.5.2 bu
阅读更多2024-11-23
第十章 JavaScript的应用
10.1.1 JavaScript简介1 简单性JavaScript 设计之初就考虑到了非专业程序员的使用，因此它的语法相对简单，容易上手。2 动态性JavaScript 是一种解释型语言，代码可以在
阅读更多2024-11-23
非root用户安装CUDA
4.下载完成后执行.run文件，需要添加两个参数，一个是--override，用于跳过某些检查或限制；另一个是--toolkitpath，它表示安装路径，必须是自己目录下面的路径，如果是根目录就会安装
阅读更多2024-11-23
Python操作neo4j库py2neo使用之py2neo 删除及事务相关操作（三）
【代码】## Python操作neo4j库py2neo使用之py2neo 删除及事务相关操作（三）
阅读更多2024-11-23
【通俗理解】Jensen不等式与变分分布q(z)在积分计算中的应用
Jensen不等式 #变分分布 #积分计算 #期望 #凸函数 #优化问题 #下界估计 #机器学习。
阅读更多2024-11-23
「Mac玩转仓颉内测版27」基础篇7 - 字符串类型详解
本篇将介绍 Cangjie 中的字符串类型，包括字符串的定义、字面量形式、插值表达、常用操作及应用场景，帮助开发者熟练掌握字符串的使用。
阅读更多2024-11-23
数据科学与SQL：组距分组分析 | 区间分布问题
绝对值分布分析也可以理解为组距分组分析。对于某个指标而言，一个记录对应的指标值的绝对值，肯定落在所有指标值的绝对值的最小值和最大值构成的区间内，根据一定的算法，在把这个区间划分为等距离的几个小区间，，
阅读更多2024-11-23
c++编译报C1004错误的原因及解决办法
可能是你的代码文件最后没有正确的结束符，或者是缺少了一些必要的头文件或语句。默认磁盘驱动器没有足够的空间用于临时文件，需要大约两倍于源文件的空间。编译器到达了源文件尾但未解析构造。计算结果为假的 #i
阅读更多2024-11-23
mysql 去重补全取出重复变量函数和存储过程
mysql 去重补全取出重复变量函数和存储过程
阅读更多2024-11-23