ViT（Vision Transformer详解）

🕗 发布于 2024-10-10 02:43 transformer 深度学习 人工智能

Transformer作为前沿的深度学习框架，带有多模态的特性，对于不同类型的输入数据，不管是文本还是图像均可进行处理，而ViT则是对于Transformer中的视觉方面（也就是输入数据为图像）的衍生物（因Transformer对应视觉领域应用受限而提出的）。因而ViT在计算机视觉领域或者遥感领域的图像处理有着较为广泛的应用。

ViT的关键概念

Transformer架构

Transformer最初用于自然语言处理（NLP）来处理序列数据，比如文本。在ViT中，同样的架构被应用于视觉任务，将图像数据作为序列来处理。

ViT的组成部分包括：多头自注意、多层感知器、快捷连接、层归一化、位置编码和网络拓扑，在视觉识别中起着关键作用。

图像作为补丁处理

与传统卷积神经网络（CNN）将整个图像作为输入不同，ViT将图像划分为多个固定大小的小块（如16x16像素），并将每个小块作为输入序列的一部分进行处理。这些图像块就像NLP中的词嵌入一样，通过Transformer进行建模。

无需卷积操作

ViT的创新在于，它不依赖于卷积操作（传统的CNN依赖卷积核来提取图像特征），而是使用Transformer的自注意力机制来学习全局的图像特征关系。

自注意力机制

自注意力机制通过捕捉图像各部分之间的关系，允许模型对整个图像有更全面的理解，而不受局部感受野的限制。

大规模数据训练

ViT的一个重要特性是其性能与数据规模高度相关。要让ViT达到或者超过CNN的效果，通常需要大规模的训练数据（例如在JFT-300M数据集上预训练）。

ViT的优点

全局特征提取能力强：与CNN不同，ViT通过自注意力机制可以捕捉图像全局的信息，适合处理大规模图像任务。
更具可扩展性：在大型数据集上，ViT可以比传统的CNN更有效地利用数据资源，尤其在高性能计算环境下展现出很好的可扩展性。

总结来说，ViT的出现为计算机视觉任务提供了一种不依赖卷积的全新模型架构，尤其在大数据集上展现了强大的性能。

在Vision Transformer (ViT) 中，patch（图像块）是指将输入图像划分成多个小的、固定大小的子图像块。这些图像块是ViT处理图像的基本单元，类似于在自然语言处理（NLP）任务中将文本分成单词或词嵌入。

ViT 相较于传统的Transformer能够更好地捕捉局部特征信息，同时保留传统Transformer对于长依赖关系捕捉的能力，此外，ViT通过添加局部聚合的模块，使得模型对于局部信息较传统结构得到进一步地增强。

Patch的具体概念

划分图像

ViT并不像传统的卷积神经网络（CNN）那样直接处理整张图像。相反，它将图像分割成多个相同大小的图像块（patch）。例如，如果输入图像的尺寸为224x224像素，ViT可能会将其划分成16x16像素的patch，这样整张图像就变成了一个14x14的网格，总共有196个patch。

每个patch的处理

每个patch被视为一个独立的输入单元，相当于NLP中的“词”。这些patch会被展平（flatten）成一维向量，然后通过一个线性嵌入层将其映射到特定维度的特征向量空间中。最终，这些特征向量会被送入Transformer模型进行进一步的处理。

为什么要使用patch？

Transformer模型本质上是处理序列数据的，而图像是一种二维数据格式。为了让Transformer能够处理图像，ViT通过将图像转化为多个patch序列，将二维问题转化为序列问题，从而可以利用Transformer模型中的自注意力机制来建模不同图像块之间的关系。

Patch的大小

Patch的大小（例如16x16）是一个超参数，它会影响模型的性能。如果patch太大，可能会丢失局部的细节信息；如果patch太小，序列的长度会增加，导致计算复杂度变高。因此，选择合适的patch大小非常关键。

Patch的工作流程总结：

输入图像（如224x224像素） → 划分为多个patch（如16x16像素） → 每个patch展平成一维向量 → 嵌入到固定的特征空间 → 作为Transformer的输入序列进行处理。

通过这种方式，ViT能够将图像作为序列数据进行处理，利用Transformer的自注意力机制来理解图像中的全局和局部信息。

参考文献：

《An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale》

《A Survey on Vision Transformer》

原文地址：https://blog.csdn.net/weixin_60535956/article/details/142757478

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

【QT Quick】页面布局：手动定位与坐标系转换
在这篇教程中，我们将详细介绍在 QT Quick 中如何手动定位元素以及坐标系转换的概念和应用。手动定位不仅仅是指定 `x`、`y` 坐标，更涉及坐标系的管理。我们会从最基本的手动定位开始，逐步扩展到
阅读更多2024-10-10
Springboot——使用poi实现excel动态图片导入解析
最近要实现一个导入导出的功能点，需要能将带图片的列表数据导出到excel中，且可以导入带图片的excel列表数据。考虑到低代码平台的表头与数据的不确定性，技术框架上暂定使用Apache-POI。
阅读更多2024-10-10
scanMiR：使用R语言预测 miRNA 结合位点
是一类小型、单链的非编码RNA分子，包含21至23个核苷酸。在植物、动物和一些病毒中发现的miRNA，参与RNA沉默和基因表达的转录后调控。切割mRNA链为两部分。通过缩短其poly(A)尾部使mRN
阅读更多2024-10-10
linux udev详解
Linux 2.6以后的内核引入了sysfs文件系统，sysfs被看成是与proc、devfs和devpty同类别的文件系统，该文件系统是一个虚拟的文件系统，它可以产生一个包括所有系统硬件的层级视图，
阅读更多2024-10-10
Go Gin 框架与 HTML 模板学习笔记
Gin是 Go 语言中常用的高性能轻量级 HTTP Web 框架，适合快速开发 RESTful API 和 Web 应用。Gin 支持 HTML 模板渲染，基于 Go 标准库，提供了安全、高效的模板功
阅读更多2024-10-10
网络安全（黑客技术）2024年三个月自学手册
网络安全可以基于攻击和防御视角来分类，我们经常听到的 “红队”、“渗透测试” 等就是研究攻击技术，而“蓝队”、“安全运营”、“安全运维”则研究防御技术。走安全行业的工程方向的，技术上面其实有很大的重叠
阅读更多2024-10-10
BUU刷题-Pwn-inctf2018_wARMup(ARM版的栈迁移)
libc版本：ArmPwn学习_arm pwn 栈迁移-CSDN博客存在一个0x10的溢出点,太短了可能无法调用shellcode,又因为本题是使用qemu模拟出来的所以每个区段再靶场上都是可执行的所
阅读更多2024-10-10
BUU刷题-Pwn-codegate2018_melong(ARM的ret2libc)
libc版本：ARM PWN：Codegate2018_Melong详细讲解-爱代码爱编程 (icode.best)ctf-wiki ARM ROP Codegate2018_Melong题解_elf
阅读更多2024-10-10
IDEA上Mybatis介绍和使用
MyBatis是一款优秀的框架，用于简化JDBC的开发。
阅读更多2024-10-10
使用 Go 和 Gin 框架构建简单的用户和物品管理 Web 服务
在本项目中，我们使用 Go 语言和 Gin 框架构建了一个简单的 Web 服务，能够管理用户和物品的信息。该服务实现了两个主要接口：根据用户 ID 获取用户名称，以及根据物品 ID 获取物品名称。本文
阅读更多2024-10-10