自学内容网 > 正文

BoTNet（CVPR 2021）速读

🕗 发布于 2024-07-26 11:40 计算机视觉 深度学习 人工智能 Transformer

paper：Bottleneck Transformers for Visual Recognition

third-party implementation：https://github.com/huggingface/pytorch-image-models/blob/main/timm/layers/bottleneck_attn.py

出发点

传统的CNN通过堆叠多个卷积层来捕捉特征的全局依赖，但这种方法需要大量的计算资源。自注意力机制（如Transformer）在自然语言处理（NLP）任务中已被证明能有效建模长距离依赖，且计算效率高。因此，本文提出了一种结合卷积和自注意力的混合架构BoTNet，通过在ResNet的最后三个瓶颈块中引入多头自注意力（MHSA），在不显著增加计算开销的情况下，显著提升了实例分割和目标检测的性能。

创新点

本文的创新点就是自注意力与卷积的结合，将ResNet最后三个bottleneck block中的3x3卷积用多头自注意力层替代，这种简单的替换不仅提高了性能，还保持了较低的计算开销。

下图左边是原始的ResNet Bottleneck结构，将中间的3x3卷积替换为MHSA就得到了Bottleneck Transformer。

多头自注意力的结构如下图所示，和ViT中采用绝对位置编码的MHSA相比，这里采用了相对位置编码。

下表是ResNet-50和BoTNet-50的网络配置，只替换了c5中的3个bottleneck中的3x3卷积。

实验结果

表2是ResNet-50和BoTNet-50作为backbone，Mask R-CNN在COCO数据集上实例分割的效果比较。其中ResNet-50在ImageNet上进行了预训练，而BoTNet-50相比ResNet-50替换的层随机初始化其它不变的层也是采用在ImageNet上的预训练权重。可以看到在不同的训练epoch数下，BoTNet-50的表现都优于ResNet-50。

原文地址：https://blog.csdn.net/ooooocj/article/details/140621399

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：Redisson中的RHyperLogLog几个常用的使用场景及去重例子
下一篇：JDK、JRE、JVM的区别

linux线程cp模型，posix信号量，线程池，线程封装，单例模型，懒汉饿汉实现方式，自旋锁，读者写者模型
前面的同步，我们并没有一个很好的场景来模拟同步，只是简单的将有序的现象输出出来；现在我们来讲解一个比较合理且常见的模型——生产者消费者模型；
阅读更多2024-09-07
Qt/C++开源项目 TCP服务器调试助手（源码分享+发布链接下载）
该TCP服务器调试助手是用于测试和监控基于TCP协议的网络通信工具，能够帮助开发者便捷地进行网络通信调试。通过简洁的界面设计，用户可以轻松配置、管理TCP端口的连接，收发消息并进行数据监控分析。123
阅读更多2024-09-07
vue3整合antv x6实现图编辑器快速入门
例如：在上面节点基础上，我们有一个新的需求：给节点加上右键菜单。X6 支持使用 SVG、HTML 来渲染节点内容，在此基础上，我们还可以使用 React、Vue 组件来渲染节点，这样在开发过程中会非常
阅读更多2024-09-07
linux使用samba共享目录，其他虚拟机和windows都可以访问
linux使用samba共享目录，其他虚拟机和windows都可以访问
阅读更多2024-09-07
Linux系统编程实现ls -l | wc -l指令
由于该指令是通过管道的形式实现的，所以我们要使用系统函数pipe。ls -l |wc -l的作用就是统计当前目录有多少文件。由于父子间通过管道实现，所以存在读写阻塞问题，不用担心僵尸进程的产生，所以可
阅读更多2024-09-07
MySQL表操作及约束
MySQL表操作及约束
阅读更多2024-09-07
1.2CubeMAX创建FREERTOS入门示例
内核参数设置，用户根据自己的实际应用来裁剪定制。：相关宏的定义，可以自建一些常量在工程中使用。User Constants（用户常量）：定时器和信号量的创建。：用于查看堆使用情况。：任务与队列
阅读更多2024-09-07
YOLOv9改进策略【注意力机制篇】| PSA极化自我关注：实现高质量像素回归
本文记录的是基于PSA注意力模块的YOLOv9目标检测方法研究。PSA模块。本文将其应用到YOLOv9的检测任务中，使模型能够更好地捕捉图像中的细节信息，以实现目标检测任务中准确识别和定位。
阅读更多2024-09-07
爆改YOLOv8|利用yolov10的SCDown改进yolov8-下采样
yolov8改进，yolov10, 下采样SCDown, 即插即用
阅读更多2024-09-07
PDF样本图册转换为一个链接，随时打开无需印刷
想象一下，您手中有一本厚重的样本图册，里面包含了丰富多样的内容，如产品介绍、项目方案、学术论文等。在过去，您需要逐一翻阅、筛选，甚至为了便于查看，不得不将其印刷出来。如今，借助先进的数字化技术，还能实
阅读更多2024-09-07