快速总结ACmix

🕗 发布于 2024-10-12 06:26 深度学习 人工智能

ACMix：On the Integration of Self-Attention and Convolution

卷积和自注意力模块通常遵循不同的设计范式：

传统卷积根据卷积滤波器权重利用局部感受野上的聚合函数，这些权重在整个特征图中共享。内在特性对图像处理施加了至关重要的归纳偏差
自注意力模块基于输入特征的上下文应用加权平均操作，其中注意力权重是通过相关像素对之间的相似性函数动态计算的。这种灵活性使注意力模块能够自适应地关注不同的区域并捕获更多信息丰富的特征。

在文章中，旨在揭示自注意力和卷积之间的更密切关系。

标准卷积运算与自注意力运算对比图

在这里插入图片描述
卷积操作：作者将核大小为K*K的卷积操作，进行分解为阶段一与阶段二，在阶段一的操作中存在着与1×1卷积核有着相同的计算构成的一部分。
自注意力机制：作者根据self-attention的原理，同样分解为两个阶段，把第一个阶段中将Q-K-V三个变量计算过程看成1×1的卷积核计算的过程。
总之，上述分析表明，
（1）卷积和自注意力机制实际上共享相同的操作，即通过1×1卷积投影输入特征图，这也是这两个模块的计算开销。
（2）尽管对于捕获语义特征至关重要，但阶段 II 的聚合操作是轻量级的，不需要额外的学习参数。

卷积与自注意力集成

两个模块共享相同的1×1的卷积操作，重复使用计算后的特征图进行不同的聚合操作，最后将两个路径的输出加在一起，并由学习的参数进行控制比例。

论文贡献：

(1)揭示了自注意力和卷积之间强烈的潜在关系，为理解这两个模块之间的联系以及设计新的学习范式提供了新的视角。

(2)提出了一种优雅的自注意力和卷积模块的集成方式，它兼具两者的优点。经验证据表明，混合模型始终优于纯卷积或自注意力模型。

原文地址：https://blog.csdn.net/qq_39027890/article/details/142824137

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：linq和efcore的contain问题
下一篇：基于机器学习的天气数据分析与预测系统

开发指南072-图片热点
/处理跳转： area.getAttribute('href');平台支持使用图像导航界面，例如展示如下一张图，用户点击对应位置触发对应动作。热点数据通过后台接口获取（注意处理权限，没有权限的热点不生
阅读更多2024-10-13
使用机器学习边缘设备的快速目标检测
这项机器学习研究探讨了一种低成本的边缘设备，该设备与具有计算机视觉功能的嵌入式系统集成，以提高目标检测和分类的推理时间和精度。研究的主要目标是减少推理时间并降低功耗，以支持一个竞技型类人机器人的嵌入式
阅读更多2024-10-13
【Windows】【DevOps】Windows Server 2022 安装ansible，基于powershell实现远程自动化运维部署入门到放弃！
文件URL：https://www.python.org/ftp/python/3.13.0/python-3.13.0-amd64.exe。直接拿linux主机测试ansible连接windows
阅读更多2024-10-13
C# 中循环的应用说明
一循环的概念说明二、循环类型三、循环控制语句四、无限循环
阅读更多2024-10-13
Linux `vmstat` 命令详解
vmstat（Virtual Memory Statistics）是 Linux 系统中的一个监控工具，用于报告系统的虚拟内存、进程、CPU 活动等信息。它能帮助用户了解系统的整体性能状况，尤其是内存
阅读更多2024-10-13
Linux下多任务编程（网络编程2）
本文介绍解决accpet和recv相互阻塞的问题，可以用多线程并发外也可以用epoll I/O多路复用的方式解决。
阅读更多2024-10-13
[单master节点k8s部署]37.微服务（一)springCloud 微服务
微服务架构的一个重要特点是，它与开发中使用的具体或无关。每个微服务都可以使用最适合其功能需求的语言或技术来实现。例如，一个微服务可以用Java编写，另一个微服务可以用Python、Go、Node.js
阅读更多2024-10-13
Zynq(3)使用外设MIO/EMIO
使用MIO/EMIO实现流水灯，着重介绍Zynq IP核的配置，解读vitis中的c语言程序，介绍MIO与EMIO的区别。
阅读更多2024-10-13
笔试算法总结
思路很简单，但是当时做题提交的时候，通过率总是18%。不知道为啥，后面我改成了Long类型，然后就通过了全部用例。（易错1：第一次提交没考虑0的情况）使用 StringBuilder 模拟栈的行为，通
阅读更多2024-10-13
快速学习一个算法，Transformer模型架构
它的主要思想是在同一时间通过多个独立的注意力头（Attention Head）来关注序列中不同部分的信息，然后将这些信息综合起来，生成更丰富的表示。自注意力机制的目的是对输入序列中的每个元素计算一个输
阅读更多2024-10-13