空间域注意力机制（Spatial Attention）

🕗 发布于 2024-08-01 23:27 深度学习 人工智能 计算机视觉

空间域注意力机制（Spatial Attention）是深度学习中一种重要的注意力机制，用于在处理如图像或视频数据时聚焦于特定区域，以提高模型的性能和效率。举例来说，首先，卷积神经网络处理一张图像，经过特征提取后得到特征图。然后，空间域注意力机制就可以通过计算每个像素点的注意力权重，集中模型的注意力在图像中最重要的区域，例如目标的周围或者有信息丰富的区域。这种机制使得模型能够更有效地处理复杂的视觉任务，提高其性能和泛化能力。

一般来说，空间注意力机制通过得到每个空间位置的注意力权重，从而达到增强有用的空间位置特征表示，抑制无效的空间位置特征表示。如图1所示，空间域注意力机制可以通过以下步骤实现：

1. 输入：假设输入特征图的尺寸为C×H×W，其中C是通道数，H和W分别是高度和宽度。

2. 特征映射：将每个特征图中的位置映射到一个注意力分数空间。这个过程通常使用一个小型的卷积核或者全连接层来实现，其目的是为每个空间位置生成一个对应的注意力权重。

3. 权重计算：计算每个位置的注意力权重，然后再使用激活函数（如softmax）将这些注意力分数归一化为概率分布，以确保每个位置的注意力权重总和为1。这样做可以使得模型能够集中精力处理最重要的部分，而忽略不太重要的部分。

4. 特征加权融合：将这些权重应用于原始的特征图，得到加权后的特征图，这样就实现了增强注意力权重高的地方的特征表示，而抑制了注意力权重低的地方的特征表示。

下面分享几篇经典的空间域注意力机制的论文。

1.Spatial Transformer Networks（STN）

论文地址：https://arxiv.org/abs/1506.02025

本文提出了一个空间转换器模块（ST）。与池化层不同的是，空间转换模块是根据不同的输入样本去学习恰当的转换方式。也就是说，空间转换模块是动态的对图像(或特征图)进行空间转换。这使得空间转换器不仅可以选择图像中最重要的区域，还可以将这些区域转换为预期的形式，以简化后续层的识别。

如图2所示，空间转换模块包含了三个部分。一是Localisation Network，二是Grid generator，三是Sampler。具体来说，Localisation Network由卷积网络组成，主要是去学习仿射变换矩阵 $\theta$ 。Grid generator对输入特征和输出特征进行空间位置的转换（如图3所示），其中，（ $x_i^s$ ， $y_i^s$ ）代表输入特征位置，（ $x_t^s$ ， $y_t^s$ ）代表输出特征位置，（其中输出特征位置是确定的）。由于上一步中通过空间转换后（ $x_i^s$ ， $y_i^s$ ）值不一定是整数，比如说转换后为（2.3,3.4），这会导致输出特征位置的像素值不能确定。所以，Sampler主要是对上一步中转换后不为整数的位置做进一步的采样来确定其对应输出特征的像素值。这个采样方法有很多，一般来说，就是通过距离（ $x_i^s$ ， $y_i^s$ ）值周围最近的几个点的像素值来确定对应输出特征的像素值。

此外，文章中还提到多个ST块并行的方式可以关注到图像的不同区域。如图4所示，每个框代表一个ST块关注的区域，我们可以看到不同的框关注图像的区域都是不同的。

2.Non-local Neural Networks

论文地址：https://arxiv.org/abs/1711.07971

文章中提出捕获远程依赖关系在深度神经网络中是非常重要的。然而，由于卷积运算和循环运算都处理空间或时间上的局部邻域，要通过反复运用这些操作（比如说多次卷积）才能够捕获远程依赖关系，但是这也会造成很多的问题（比如计算效率低，距离太远也不能够很好地捕获）。所以，文章中提出了一个non-local block（如图5所示）用于更好地去捕获远程依赖关系。下面就来分析non-local block的实现过程，。

以图像来说，假设输入特征 $X$ 为 $C\times H \times W$ (其中， $C$ 为通道数， $H$ 为高， $W$ 为宽)。

1. 首先使用3个线性层来分别对 $X$ 的通道数进行降维（1024 -> 512）分别记为 $X_1$ ， $X_2$ ， $X_3$ 。

2. 然后，将除通道数外的维度拉成一条向量（ $HW \times C$ ），并对 $X_1$ 和 $X_2$ 的转置使用矩阵乘法得到注意力分数矩阵 $\omega$ （ $HW \times HW$ ），再对 $\omega$ 的每一行使用softmax操作得到每个像素点对于其他像素点的相关性。

3. 最后，将注意力分数矩阵 $\omega$ 与 $X_3$ 做矩阵乘法，然后再用卷积操作对通道进行升维，再与输入特征 $X$ 相加，即得到最终的输出特征。

总之，空间域注意力机制可以应用在各种计算机视觉任务中，例如目标检测，图像分割等。它不仅使模型能够专注于图像中最关键的部分，还能够提升模型的表达能力和性能。

原文地址：https://blog.csdn.net/kuailezzf/article/details/140832126

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：dp专题（一）
下一篇：javascript(三)

leetcode289:生命游戏
根据，简称为，是英国数学家约翰·何顿·康威在 1970 年发明的细胞自动机。给定一个包含m × n个格子的面板，每一个格子都可以看成是一个细胞。每个细胞都具有一个初始状态：1即为（live），或0即为
阅读更多2024-10-20
MongoDB数据恢复
注意：两个MongoDB的版本要一致，本文使用的是mongo:4.2.24。先把K8S上面的MongoDB 容器停止（可以把副本改成0）。1、将容器挂载MongoDB的数据目录备份到本地。经常是数据文
阅读更多2024-10-20
C#中实现事务
C#中实现事务
阅读更多2024-10-20
【LeetCode每日一题】——560.和为 K 的子数组
给你一个整数数组 nums 和一个整数 k ，请你统计并返回该数组中和为 k 的子数组的个数。子数组是数组中元素的连续非空序列。
阅读更多2024-10-20
「漏洞复现」满客宝智慧食堂系统 selectUserByOrgId 未授权访问漏洞
请勿利用文章内的相关技术从事非法测试，由于传播、利用此文所提供的信息而造成的任何直接或者间接的后果及损失，均由使用者本人负责，作者不为此承担任何责任。工具来自网络，安全性自测，如有侵权请联系删除。本次
阅读更多2024-10-20
React面试题目（从基本到高级）
React前端面试常见题目涵盖了React的基础概念、组件、状态管理、生命周期、性能优化等多个方面。
阅读更多2024-10-20
12.个人博客系统（Java项目基于spring和vue）
1 在校学习的学生，可用于日常学习使用或是毕业设计使用 2 毕业一到两年的开发人员，用于锻炼自己的独立功能模块设计能力，增强代码编写能力。 3 亦可以部署为商化项目使用。 4 需要完整资料及源码
阅读更多2024-10-20
YoloV8改进策略：注意力改进|DeBiFormer，可变形双级路由注意力|引入DeBiLevelRoutingAttention注意力模块（全网首发）
本次改进的核心在于将DeBiLevelRoutingAttention模块嵌入到YoloV8的主干网络中，具体位置是在SPPF（Spatial Pyramid Pooling Fast）模块之后。这一
阅读更多2024-10-20
word取消自动单词首字母大写
情况说明：在word输入单词后首字母会自动变成大写取消单词首字母大写步骤：（1）点击菜单栏文件（2）点击“更多”——>“选项”（3）点击“校对”——>“自动更正选项”（4）取消“句首字母大
阅读更多2024-10-20
web前端网页用户注册页面
【代码】web前端网页用户注册页面。
阅读更多2024-10-20

空间域注意力机制（Spatial Attention）

1.Spatial Transformer Networks（STN）

2.Non-local Neural Networks

相关文章