【有啥问啥】SE（Squeeze-and-Excitation）架构详解

🕗 发布于 2024-10-05 11:45 架构 ai 算法

SE（Squeeze-and-Excitation）架构详解

在深度学习，特别是计算机视觉领域，卷积神经网络（CNN）的发展日新月异。为了进一步提升CNN的特征提取能力和模型性能，研究者们不断探索新的网络架构和组件。其中，Squeeze-and-Excitation（SE）架构作为一种创新的特征重标定机制，自提出以来便受到了广泛的关注和应用。本文将详细解析SE架构的工作原理、实现方式、优势及其在不同网络架构中的应用。

SE架构的提出背景

在传统的CNN中，卷积层通过卷积核在输入特征图上滑动，提取出局部特征，并通过堆叠多个卷积层来构建深层次的特征表示。然而，这种处理方式往往忽略了不同通道特征之间的差异性，即每个通道的特征图对于最终任务的重要性可能是不同的。为了解决这个问题，SE架构被提出，它通过对通道特征进行显式地建模和重标定，来提升模型对有用特征的敏感度，并抑制无关特征。

SE架构的工作原理

SE架构的核心思想是通过Squeeze和Excitation两个步骤，对卷积层的输出特征图进行动态调整。

Squeeze（压缩）

在Squeeze步骤中，SE架构采用全局平均池化（Global Average Pooling）来压缩每个通道的特征图。具体来说，它将每个通道的特征图在空间维度（高度和宽度）上进行平均，得到一个表示该通道全局信息的标量。这个标量可以看作是通道描述符，它包含了该通道特征图的全局信息，但不包含空间位置信息。这一步骤的数学表达为：

$z_c = \frac{1}{H \times W} \sum_{i=1}^{H} \sum_{j=1}^{W} x_{c, i, j}$

Excitation（激发）

在Excitation步骤中，SE架构使用一个自门控机制来学习每个通道的权重。这个机制首先通过一个全连接层（也称为瓶颈层）来降低通道描述符的维度，以减少计算量并增加模型的非线性能力。然后，通过ReLU激活函数进行非线性变换，再通过另一个全连接层恢复到原始通道数。最后，使用Sigmoid激活函数将权重值压缩到0到1之间，权重值越大表示该通道特征越重要，反之则越不重要。权重计算公式为：

$\sigma(W_2 \cdot \text{ReLU}(W_1 \cdot z))$

总体流程

最终，原始特征图被重标定，得到的输出为：

$\text{Output} = x \cdot y$

SE架构的实现方式

SE架构的实现相对简单，可以作为一个即插即用的模块嵌入到现有的CNN架构中。以下是一个基于PyTorch的SE模块实现示例：

import torch
import torch.nn as nn

class SELayer(nn.Module):
    def __init__(self, channel, reduction=16):
        super(SELayer, self).__init__()
        self.avg_pool = nn.AdaptiveAvgPool2d(1)
        self.fc = nn.Sequential(
            nn.Linear(channel, channel // reduction, bias=False),
            nn.ReLU(inplace=True),
            nn.Linear(channel // reduction, channel, bias=False),
            nn.Sigmoid()
        )

    def forward(self, x):
        b, c, _, _ = x.size()
        y = self.avg_pool(x).view(b, c)
        y = self.fc(y).view(b, c, 1, 1)
        return x * y.expand_as(x)

# 示例使用
dummy_input = torch.randn(1, 32, 224, 224)  # 假设输入是批大小为1，通道数为32，空间尺寸为224x224的特征图
se_layer = SELayer(32)
output = se_layer(dummy_input)
print(output.shape)  # 应输出 [1, 32, 224, 224]

SE架构的优势

SE架构的优势主要体现在以下几个方面：

提升特征表达能力：通过显式地对通道特征进行重标定，SE架构能够增强模型对有用特征的敏感度，并抑制无关特征，从而提升模型的特征表达能力。
即插即用：SE模块可以轻松地集成到现有的CNN架构中，无需改变网络的整体结构，具有良好的通用性和灵活性。
计算效率高：尽管SE模块引入了额外的参数和计算量，但其增加的复杂度相对较小，且能够带来显著的性能提升，因此具有较高的计算效率。

SE架构的应用

SE架构自提出以来，已被广泛应用于各种CNN架构中，如ResNet、Inception、MobileNet等。在ResNet中，SE模块通常被嵌入到残差学习分支中，以增强残差连接的特征表达能力。在Inception网络中，SE模块则被应用于整个Inception模块中，以调整不同尺度的特征图。实验表明，在多个数据集和任务中，引入SE架构的模型均能实现显著的性能提升。例如，在CIFAR-10数据集上，使用SE模块的ResNet模型准确率提升了约2-3%。在目标检测任务中，SE模块的引入使Faster R-CNN模型的mAP提升了5%。

SE架构的局限性

尽管SE架构具有诸多优势，但也存在一些局限性：

计算开销：尽管SE模块的计算量相对较小，但在某些实时性要求较高的应用场景中，额外的计算可能仍会影响模型的推理速度。
过拟合风险：在小数据集上使用SE模块可能导致模型过拟合，增加的参数可能不一定带来预期的性能提升。

与其他机制的对比

与其他特征重标定机制相比，SE架构有其独特的优势和适用场景。例如，CBAM（Convolutional Block Attention Module）结合了空间注意力和通道注意力，尽管SE架构相对更简单，但CBAM在捕捉空间特征方面表现更好。此外，ECA-Net（Efficient Channel Attention）不使用全连接层，减少了计算量，但可能牺牲一定的性能。

未来研究方向

未来的研究可以探索SE架构的变种，或与新兴技术（如自注意力机制、Transformer等）结合，进一步提升特征表达能力。例如，结合SE架构和Transformer的自注意力机制，可能在处理复杂视觉任务时提供更强的表现。

结论

SE（Squeeze-and-Excitation）架构作为一种创新的特征重标定机制，通过显式地对通道特征进行建模和重标定，提升了CNN的特征表达能力和模型性能。其简洁的实现方式和显著的性能提升使得SE架构在深度学习领域得到了广泛的应用。随着研究的深入和技术的不断发展，SE架构有望在更多领域发挥其独特优势并推动深度学习技术的进一步发展。

原文地址：https://blog.csdn.net/mieshizhishou/article/details/142640023

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：OpenFeign微服务部署
下一篇：CSS基础-选择器

云RDS MySQL迁移至本地MySQL
云RDS MySQL迁移至本地MySQL
阅读更多2024-10-05
Gralloc图形缓冲的分配过程
Gralloc 图形缓冲是一段保存图形数据的内存，这是一段共享的内存，Fence机制释放也是大多数都是通过memcpXXX等c++函数完成，也就是把指针重新指向一个地址，在Android系统中，Gra
阅读更多2024-10-05
使用PyTorch实现自然语言处理：从基础到实践
本文详细介绍了如何使用PyTorch实现一个简单的自然语言处理任务——文本分类。从数据准备、模型构建到训练与评估，提供了完整的代码示例。希望通过本文，读者能够掌握使用PyTorch进行自然语言处理的基
阅读更多2024-10-05
计算机毕业设计Python+Spark知识图谱微博舆情预测微博推荐系统微博可视化微博数据分析微博大数据微博爬虫 Hadoop 大数据毕业设计
计算机毕业设计Python+Spark知识图谱微博舆情预测微博推荐系统微博可视化微博数据分析微博大数据微博爬虫 Hadoop 大数据毕业设计
阅读更多2024-10-05
Springboot结合RabbitMQ
配置文件，也可以使用@PostConstruct。
阅读更多2024-10-05
PyTorch 模型保存与加载的三种常用方式
训练一个神经网络可能需要数小时甚至数天的时间，你需要认知到一点：时间是非常宝贵的，目前3090云服务器租赁一天的价格为 37.92 元。如果你的代码没有保存模型的模块，那就先不要开始，因为不保存基本等
阅读更多2024-10-05
【优选算法】（第二十二篇）
如果我们使⽤荷兰国旗问题的思想，将数组划分为左中右三部分：左边是⽐基准元素⼩的数据，中间是与基准元素相同的数据，右边是⽐基准元素⼤的数据。right - 1 与 cur 位置的元素，并且让 right
阅读更多2024-10-05
深度学习常见术语介绍
深度学习常见术语介绍
阅读更多2024-10-05
TCP BIC 的拟合函数分析
但要记住本质，不管是 bic 还是 cubic，不应过分关注数学表达本身，它们只是处理上的技巧，数学是工具，本质上要达到的目标是，尽量快速逼近 Wmax，谨慎适当 probe 新带宽，数学上拟合的曲线
阅读更多2024-10-05
profile-spec-ref元素
元素允许 SBB 关联到特定的 Profile，进而获取与用户相关的配置信息。它定义了 SBB 如何访问用户的个性化设置。元素在 JAIN SLEE 中扮演着重要角色，它允许 SBB 动态访问用户配置
阅读更多2024-10-05