【经典论文阅读】Transformer（多头注意力 && 编码器-解码器）

🕗 发布于 2024-11-29 07:15 论文阅读 transformer 深度学习

Transformer

attention is all you need

摘要

完全舍弃循环 recurrence 和卷积 convolutions

只依赖于attention mechanisms

【1】Introduction

完全通过注意力机制，draw global dependencies between input and output

【2】Background

1：self-attention（自注意力）

2：end-to-end memory networks（端到端记忆网络）

【3】Model Architecture

框架图

对编码器和解码器，均使用堆叠的自注意力机制和逐点全连接层

encoder-decoder

编码器：将输入序列 x 映射为连续表示的序列 z

输入序列 x ：
映射序列 z ：

解码器：给定映射序列 z，生成输出序列 y

输出序列 y ：
在生成下一个符号时，将之前生成的符号作为额外输入

【3.1】Encoder and Decoder Stacks

Encoder

6个编码层堆叠，每个编码层有2个子层

1个编码层 = 1个多头注意力机制 + 1个逐点全连接前馈网络

每个子层有1次残差连接，并归一化

所有子层和嵌入层的输出维度 d_model = 512

Decoder

6个解码层堆叠，每个解码层有3个子层

1个编码层 = 1个带掩码的多头注意力机制 + 1个多头注意力机制 + 1个逐点全连接前馈网络

每个子层有1次残差连接，并归一化

带掩码 ==> 屏蔽作用，防止位置关注到后续位置

【3.2】Attention

Scaled Dot-Product Attention（缩放点积注意力）

注意力计算公式：

Q：查询向量
K：键向量
V：值向量

最常用的注意力函数

1：additive attention（加法），通过1个隐藏层的前馈网络，计算兼容性函数

2：dot-product attention（点积），存在缩放因子

当 d_k 值较大时，点积结果会大幅增加，使 softmax 函数趋向极端梯度分布

Multi-Head Attention（多头注意力）

多头 ==> 在不同位置、不同表示子空间中，联合关注信息

多头的计算公式：

投影矩阵为参数矩阵：

头的数量 h = 8

每个头的维度减少，总计算成本与全维度的单头注意力相似

Applications of Attention in our Model

1：在编码器-解码器注意力层中，Q来自前一个解码器层，K和V来自编码器的输出

2：编码器包含自注意力层。编码器中每个位置，可关注编码器中前一层的所有位置

3：解码器中的自注意力层。解码器中每个位置，可关注解码器中到当前位置的所有位置（Masked）

【3.3】Position-wise Feed-Forward Networks（逐点前馈网络）

FFN的计算公式：

2个线性变换，中间使用ReLU激活

第1个线性变换：x·W1 + b1
中间的激活函数：max(0, x·W1 + b1)
第2个线性变换：max(0, x·W1 + b1) W2 + b2

另一种描述方法：两个卷积操作，卷积核大小为1

维度结果：

输入和输出的维度：d_model = 512
中间层的维度：d_ff = 2048

【3.4】Embeddings and Softmax

在2个嵌入层和 Softmax 之前的线性变换之间，共享相同的权重矩阵

在嵌入层中，权重乘以

【3.5】Positional Encoding（位置编码）

位置编码的维度为：d_model，可以和嵌入层相加

位置编码可学习或固定

使用不同频率的正弦和余弦函数：

pos：位置
i：维度

位置编码的每个维度，对应一个正弦波
波长范围：2π ~ 10000*2π

正弦波的原因 ==> 使模型能推广到比训练中遇到的序列长度更长的情况

【4】Why Self-Attention

自注意力的3个动机：

每层的总计算复杂度
并行计算量，用所需的最少顺序操作数衡量
网络中长距离依赖的路径长度

依赖的影响因素：信号在网络中前后传播所需路径的长度。输入和输出序列中任意位置之间的路径越短，学习长距离依赖越容易。

计算复杂度：

当序列长度 n 小于表示维度 d 时，自注意力层比循环层更快
自注意力层，以固定数量的顺序，执行操作连接所有位置
循环层，以O(n)顺序

【5】Training

【5.1】Training Data and Batching

句对按近似序列长度分组

每个训练批包含一组句对，其中包含约 25000 个源词组和 25000 个目标词组

【5.2】Hardware and Schedule

8卡P100

base model：100, 000 step

big model：300, 000 step

【5.3】Optimizer

优化器：Adam

β1 = 0.9

β2 = 0.98

ϵ = 1e-9

学习率变化公式：

热身：线性增加（4000 step）
后期：平方反比例降低

【5.4】Regularization

训练阶段使用的正则：

1：residual dropout（P_drop = 0.1）

2：label smoothing（ϵ_ls = 0.1）

原文地址：https://blog.csdn.net/m0_65787507/article/details/144095656

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：【开源免费】基于Vue和SpringBoot的新闻推荐系统（附论文）
下一篇：【YOLO系列复现】二、基于YOLOv6的目标检测：YOLOv6训练自己的数据集(史诗级详细教程)

nodejs27: CSS 伪元素 ::after
::after 的常见用途 : 添加装饰性内容（如图标、分隔线）构建复合形状（如箭头、对话框）动态内容添加（如标签、标记等）
阅读更多2024-12-01
Qt 窗口类型、窗口标志和窗口属性
Qt 窗口标志枚举类型用于指定小部件的各种窗口系统属性。其中一些标志取决于底层窗口管理器是否支持它们。
阅读更多2024-11-30
日志集中化解决方案（如ELK或Graylog）
日志集中化是现代 IT 系统中非常重要的一个环节，尤其是对于大型分布式系统而言。日志集中化解决方案使得用户能够从多个服务或应用中收集、分析和可视化日志数据，以便于监控、调试和故障排除。常见的日志集中化
阅读更多2024-11-30
Rust SQLx CLI 同步迁移数据库
上文我们介绍了SQLx及SQLite，并介绍了如何使用代码同步迁移数据库。本文介绍Sqlx cli 命令行工具，介绍如何安装、使用，利用其提供的命令实现数据表同步迁移。Java生态中有flyway,
阅读更多2024-11-30
DIDCTF-2022暑假取证学习
poiuy[格式： www.baidu.com]格式：SAMSUNG+FAWC524213104FAWV146+2022-07-14。
阅读更多2024-11-30
基于图像形态学处理的移动物体目标跟踪和质心提取matlab仿真,带GUI界面
在计算机视觉领域，移动物体的目标跟踪和质心提取是重要的研究内容，具有广泛的应用，如智能监控、自动驾驶、人机交互等。图像形态学处理作为一种强大的图像处理工具，能够有效地对图像中的物体形状、结构等信息进行
阅读更多2024-11-30
python图像彩色数字化
Dockerfile 和 requestments.txt。
阅读更多2024-11-30
Docker：清理Docker占用的磁盘空间
Docker：清理Docker占用的磁盘空间 - 知乎。
阅读更多2024-11-30
pinn 扩散方程
就爱看这种。
阅读更多2024-11-30
android shader gl_Position是几个分量
在Android的OpenGL ES中是一个四维向量，包含x、y、z和w四个分量。这些分量共同决定了顶点的位置和投影效果。是顶点着色器（Vertex Shader）的一个内置输出变量，它用于指定顶点在
阅读更多2024-11-30