Patch embed 的映射矩阵多大？

🕗 发布于 2024-07-07 15:18 矩阵 机器学习 人工智能

假设我们有一个图像，其大小为 (H \times W \times C)，其中 (H) 是图像的高度，(W) 是图像的宽度，(C) 是图像的通道数（例如，RGB 图像的通道数为 3）。

将图像划分成 patches:
- 假设我们将图像划分成大小为 (P \times P) 的 patches。
- 这样我们就会得到 (\frac{H}{P} \times \frac{W}{P}) 个 patches。
将每个 patch 展开成一个向量:
- 每个 patch 的大小为 (P \times P \times C)，展开成一个长度为 (P^2 \cdot C) 的向量。
应用线性嵌入（Linear Embedding）:
- 使用一个线性变换将每个长度为 (P^2 \cdot C) 的向量映射到一个固定的维度，这个维度通常被称为 embedding dimension，记为 (D)。
- 这个线性变换通常用一个权重矩阵来表示，形状为 (D \times (P^2 \cdot C))。

所以，总结一下，patch embedding layer 的大小和形状如下：

输入大小：每个 patch 的大小为 (P^2 \cdot C)。
输出大小：embedding dimension (D)。
权重矩阵的形状：(D \times (P^2 \cdot C))。

如果具体举个例子，假设一个图像的大小为 (224 \times 224 \times 3)，每个 patch 的大小为 (16 \times 16)，embedding dimension (D) 为 768。

图像被划分成 (\frac{224}{16} \times \frac{224}{16} = 14 \times 14) 个 patches。
每个 patch 的大小为 (16 \times 16 \times 3 = 768)。
patch embedding layer 的权重矩阵大小为 (768 \times 768)。

原文地址：https://blog.csdn.net/vivi_cin/article/details/140162695

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

多线程小知识
多线程小知识~
阅读更多2024-11-13
python爬虫指南——初学者避坑篇
知识点描述常用方法或库HTTP基础了解HTTP请求和响应，GET、POST、状态码等HTML结构解析通过标签定位、CSS选择器、XPath解析HTML内容lxml正则表达式使用正则表达式从文本中匹配特
阅读更多2024-11-13
Spring Boot基础教学：Spring Boot 简介
Spring框架的简介Spring Boot与Spring框架的关系Spring Boot的优势总结推荐资源和进一步学习的路径该课件大纲仅提供一个框架性的介绍，并不能涵盖Spring Boot的所有复
阅读更多2024-11-13
Android——多线程、线程通信、handler机制
这样，我们的主线程不会阻塞，在执行这个任务后，页面也可以正常交互，但是在子线程中不能操纵页面，所以。在Activity中定义一个Handler。会有问题，所以我们需要进程通信。通过 mHandler
阅读更多2024-11-13
Unity教程（十八）战斗系统攻击逻辑
本文为Udemy课程The Ultimate Guide to Creating an RPG Game in Unity学习笔记，如有错误，欢迎指正。本节实现战斗系统的攻击逻辑部分。
阅读更多2024-11-13
第二天python笔记
True真/1 非零为True 非空格字符为True。字符串与c语言一致，字符下标从0开始，或者倒序右边从-1开始。允许多个变量指向同一个值（连等，且内存地址也相同。变量=input(先输
阅读更多2024-11-13
23种设计模式的Flutter实现第一篇创建型模式(一)
这篇文章主要讲述23种设计模式使用Flutter如何实现。
阅读更多2024-11-13
三 Spring的入门程序
docs：spring框架的：spring框架的jar文件schema：spring框架的。
阅读更多2024-11-13
【含开题报告+文档+源码】基于SpringBoot的智慧养老医护管理系统
本课程演示的是一款基于SpringBoot的智慧养老医护管理系统，主要针对计算机相关专业的正在做毕设的学生与需要项目实战练习的 Java 学习者。1.包含：项目源码、项目文档、数据库脚本、软件工具等
阅读更多2024-11-13
Redis 数据类型
Redis支持五种数据类型：string（字符串），hash（哈希），list（列表），set（集合）及zset(sorted set：有序集合)。
阅读更多2024-11-13

Patch embed 的映射矩阵多大？

相关文章