深度学习——3种常见的Transformer位置编码【sin/cos、基于频率的二维位置编码（2D Frequency Embeddings）、RoPE】

🕗 发布于 2024-11-27 04:27 transformer 深度学习 人工智能 位置编码

🌺历史文章列表🌺

深度学习——优化算法、激活函数、归一化、正则化
深度学习——权重初始化、评估指标、梯度消失和梯度爆炸
深度学习——前向传播与反向传播、神经网络（前馈神经网络与反馈神经网络）、常见算法概要汇总
万字长文解读深度学习——卷积神经网络CNN
万字长文解读深度学习——循环神经网络RNN、LSTM、GRU、Bi-RNN
万字长文解读深度学习——Transformer
万字长文解读深度学习——GPT、BERT、T5
万字长文解读深度学习——ViT、ViLT、DiT
万字长文解读深度学习——CLIP、BLIP
万字长文解读深度学习——AE、VAE
万字长文解读深度学习——GAN
万字长文解读深度学习——训练、优化、部署细节

文章目录

Transformer中常见的编码方式

Transformer中常见的编码方式

自注意力机制（Self-Attention）本身不具备任何顺序或空间位置信息。
为此，需要显式地将位置信息嵌入输入特征，以确保模型能够感知特征间的空间或时间关系。

正弦/余弦位置编码（Sinusoidal Positional Encoding）

在 Transformer 的原始论文（Vaswani et al., 2017）中提出的，最原始的位置编码。正弦/余弦位置编码也叫1D Frequency Embeddings，通过频率函数将每个位置嵌入到特征空间中。

公式：
$PE_{(pos, 2i)} = \sin\left(\frac{pos}{10000^{\frac{2i}{d}}}\right)$
$PE_{(pos, 2i+1)} = \cos\left(\frac{pos}{10000^{\frac{2i}{d}}}\right)$

$p os$ ：表示输入序列的位置。
$d$ ：表示embedding维度。
正弦和余弦的周期性特点可以让模型捕获相对位置信息。

说明：

正弦 $\sin$ 被应用于所有偶数维（索引为 $2 i$ ）；
余弦 $\cos$ 被应用于所有奇数维（索引为 $2 i + 1$ ）。

这种设计的意义在于：

区分不同维度的位置信息：
- 对偶数维和奇数维分别使用不同的函数，可以让不同维度的位置信息具有不同的变化模式。
- 例如，偶数维的位置信息可能更注重某种语义，奇数维则可能补充另一种语义。
模型的平移不变性：
- 在一些任务中，特别是相对位置编码时，正弦和余弦函数的周期性可以帮助模型更容易地捕获相对距离信息。
消除对称性：
- 如果只用一种函数，比如全是 $\sin$ ，可能导致偶数维和奇数维的输出具有对称性，降低信息的区分度。

基于频率的二维位置编码（2D Frequency Embeddings）

主要针对Transformer处理二维数据（如图像）的情况。在 ViT（Vision Transformer）的标准实现中，将两个独立的 1D Frequency Embeddings 分别应用于图像的行（height）和列（width）方向，然后通过拼接（concat）或求和（add）来构造最终的 2D Frequency Embeddings 。

实现方式：两个 1D Frequency Embeddings 构成 2D Embeddings

给定图像的大小为 $\times W$ ，编码维度为 $D$ ，这种 2D 编码的计算方式如下：

沿行（Height）方向生成 1D Frequency Embeddings：
对行索引 $\in [0, H-1]$ ，生成对应的正弦和余弦位置编码：
$PE_{x, 2i} = \sin\left(\frac{x}{10000^{\frac{2i}{D}}}\right), \quad PE_{x, 2i+1} = \cos\left(\frac{x}{10000^{\frac{2i}{D}}}\right)$
沿列（Width）方向生成 1D Frequency Embeddings：
对列索引 $\in [0, W-1]$ ，同样生成正弦和余弦位置编码：
$PE_{y, 2i} = \sin\left(\frac{y}{10000^{\frac{2i}{D}}}\right), \quad PE_{y, 2i+1} = \cos\left(\frac{y}{10000^{\frac{2i}{D}}}\right)$
最终组合：
- 拼接：
  $PE_{(x, y)} = \text{concat}(PE_x, PE_y)$
  最终维度为 (2D)。
- 求和：
  $PE_{(x, y)} = PE_x + PE_y$
  最终维度为 (D)。

说明：

分解二维结构：
- 图像的二维空间本质上可以分解为行和列的两个独立维度。因此，分别对行和列编码是一种有效的做法，既利用了图像的二维特性，又保持了实现的简单性。
保持 Transformer 的通用性：
- Transformer 本质是基于序列操作的，而将二维图像划分为行和列的独立序列后，位置编码的计算方式可以复用 NLP 中的正/余弦编码。
减少计算复杂度：
- 相较于直接生成每个位置 $(x, y)$ 的二维正弦编码，这种方法的计算复杂度更低，同时效果相近。

旋转式位置编码（Rotary Position Embeddings, RoPE）

Rotary Position Embeddings (RoPE) 是一种基于旋转变换的位置编码方法，同时支持绝对位置和相对位置的建模。

传统位置编码的局限

绝对位置编码（如正弦/余弦编码）：
- 提供固定的绝对位置信息。
- 不能自然建模相对位置关系。
相对位置编码：
- 能够建模相邻元素间的相对距离。
- 但实现复杂度较高，尤其在长序列任务中开销较大。

RoPE 的创新点
RoPE 提出了旋转式变换的思路，通过将位置信息直接嵌入到输入特征的投影空间，既能高效建模绝对位置，又能自然捕捉相对位置关系。

RoPE 的数学原理

输入特征与位置编码的表示

假设输入向量为 $\mathbf{x} \in \mathbb{R}^d$ ，其中 $d$ 是特征维度。
每个输入向量的维度分为偶数和奇数两部分，分别进行正弦和余弦编码：
- $\text{PE}_i = \sin\left(\frac{\text{pos}}{10000^{2i/d}}\right)$ （偶数维度）。
- $\text{PE}_i = \cos\left(\frac{\text{pos}}{10000^{2i/d}}\right)$ （奇数维度）。
- $\text{pos}$ 是输入的位置信息。

旋转变换

RoPE 的核心思想是对每个特征向量进行旋转操作，具体通过二维旋转矩阵实现：
$\mathbf{x}_{\text{rot}} = \mathbf{R}(\theta) \cdot \mathbf{x},$
其中：
- $\mathbf{R}(\theta)$ 是旋转矩阵，角度 $\theta$ 与位置有关。
- 旋转矩阵作用于偶数维度和奇数维度的输入特征，旋转变化如下：
  $\begin{bmatrix} x_{\text{even}}' \\ x_{\text{odd}}' \end{bmatrix} = \begin{bmatrix} \cos(\theta) & -\sin(\theta) \\ \sin(\theta) & \cos(\theta) \end{bmatrix} \cdot \begin{bmatrix} x_{\text{even}} \\ x_{\text{odd}} \end{bmatrix}$
  
  符号意义
  1. $\begin{bmatrix} x_{\text{even}} \\ x_{\text{odd}} \end{bmatrix}$ :
    - 原始特征向量的偶数维度和奇数维度。
    - 输入向量 $\mathbf{x}$ 被分解为偶数索引部分 $x_{\text{even}}$ 和奇数索引部分 $x_{\text{odd}}$ 。
      - 偶数维：例如，第 0、2、4… 维。
      - 奇数维：例如，第 1、3、5… 维。
  2. $\begin{bmatrix} x_{\text{even}}' \\ x_{\text{odd}}' \end{bmatrix}$ :
    - 旋转后特征向量的偶数维度和奇数维度。
    - 这是嵌入位置信息后的特征表示。
  3. $\begin{bmatrix} \cos(\theta) & -\sin(\theta) \\ \sin(\theta) & \cos(\theta) \end{bmatrix}$ :
    - 二维旋转矩阵，用于将特征向量的偶数维度和奇数维度进行旋转变换。
    - 旋转角度 $\theta$ 与位置（如时间步或空间坐标）相关。

相对位置的自然建模

通过旋转变换，两个特征间的相对位置关系可以直接通过旋转角度差 $(\Delta \theta)$ 捕捉：
$\text{Attention}(\mathbf{q}, \mathbf{k}) = \text{dot}(\mathbf{q}_{\text{rot}}, \mathbf{k}_{\text{rot}}).$
- $\mathbf{q}_{\text{rot}}$ 和 $\mathbf{k}_{\text{rot}}$ 是经过 RoPE 编码的查询（Query）和键（Key）向量。
- 相对位置差的建模通过旋转后的内积自然实现。

RoPE 的实现步骤

1. 计算旋转角度

根据输入位置 $\text{pos}$ 和维度 $d$ 生成旋转角度。

公式
每个维度的旋转角度通过以下公式计算：
$\theta_{i} = \frac{\text{pos}}{10000^{2i/d}},$
其中：

$\text{pos}$ ：输入特征的位置索引（如序列中的时间步或图像的空间位置）。
$d$ ：特征向量的总维度。
$i$ ：当前特征维度的索引。

过程

分解频率因子：
- 为不同的维度 (i) 生成对应的频率因子：
  $\frac{1}{10000^{2i/d}}$
  其中 $d$ 控制总维度范围内的频率分布：
  - 较低维度的频率变化较慢（低频），适合建模全局信息。
  - 较高维度的频率变化较快（高频），适合捕捉局部细节。
结合位置计算角度：
- 对于每个位置 $\text{pos}$ ，乘以频率因子以生成旋转角度：
  $\theta_{i} = \text{pos} \cdot \frac{1}{10000^{2i/d}}$
- 不同位置的旋转角度反映了其空间或时间位置信息。

结果

每个位置 $\text{pos}$ 和每个维度 $i$ 对应一个独特的旋转角度 $\theta_{i}$ 。
输出是一个长度为 $d$ 的旋转角度数组。

2. 构造旋转矩阵

旋转矩阵用于将偶数维和奇数维的特征进行二维旋转嵌入。每对偶数维和奇数维被看作一个二维向量。

公式
二维旋转矩阵的形式为：
$\mathbf{R}(\theta) = \begin{bmatrix} \cos(\theta) & -\sin(\theta) \\ \sin(\theta) & \cos(\theta) \end{bmatrix}$
过程

匹配每个维度的角度：
- 根据上一步计算的旋转角度 $\theta_i$ ，生成每对偶数维和奇数维的旋转矩阵。
作用对象：
- 偶数维 $\text{even}(i)$ 和奇数维 $\text{odd}(i+1)$ 被看作一个二维向量：
  $\mathbf{x}_{\text{even}}, \mathbf{x}_{\text{odd}}$
生成旋转变换：
- 使用 $\cos(\theta_i)$ 和 $\sin(\theta_i)$ 填充旋转矩阵。

3. 旋转变换

将旋转矩阵作用于特征向量的偶数维和奇数维，以嵌入位置信息。

公式
旋转后的特征向量表示为：
$\begin{bmatrix} x_{\text{even}}' \\ x_{\text{odd}}' \end{bmatrix} = \begin{bmatrix} \cos(\theta) & -\sin(\theta) \\ \sin(\theta) & \cos(\theta) \end{bmatrix} \cdot \begin{bmatrix} x_{\text{even}} \\ x_{\text{odd}} \end{bmatrix}.$

过程

输入特征：
- 输入特征 $\mathbf{x}$ 被分解为偶数维和奇数维两部分：
  $\mathbf{x} = [x_{\text{even}}, x_{\text{odd}}]$
旋转变换：
- 对于每对偶数维和奇数维：
  $x_{\text{even}}' = x_{\text{even}} \cdot \cos(\theta) - x_{\text{odd}} \cdot \sin(\theta),$
  $x_{\text{odd}}' = x_{\text{even}} \cdot \sin(\theta) + x_{\text{odd}} \cdot \cos(\theta).$
- 旋转后的特征将位置信息嵌入到每个维度中。
重组特征：
- 将旋转后的偶数维和奇数维重新合并，得到嵌入了位置信息的特征向量。

4. 自注意力机制

使用旋转后的特征向量参与自注意力计算，在 Attention 的点积操作中显式建模 绝对位置 和 相对位置信息。

自注意力公式
自注意力的计算公式为：
$\text{Attention}(\mathbf{q}, \mathbf{k}) = \mathbf{q} \cdot \mathbf{k}$

$\mathbf{q}$ ：查询向量（Query）。
$\mathbf{k}$ ：键向量（Key）。

RoPE 的贡献

绝对位置信息：
- 旋转变换后的 $\mathbf{q}$ 和 $\mathbf{k}$ 包含绝对位置信息，使模型能够感知每个特征的位置。
相对位置信息：
- 点积中隐含了旋转角度差 $\Delta \theta = \theta_2 - \theta_1$ ：
  $\cos(\Delta \theta) + \sin(\Delta \theta),$
  - $\Delta \theta$ 是两位置间的相对关系，直接体现在注意力值中。

RoPE 的优点

高效性：
- 不需要复杂的相对位置偏移矩阵或附加参数，直接通过旋转实现。
- 适合长序列任务，计算复杂度低。
支持绝对与相对位置：
- 旋转式编码不仅能捕捉绝对位置，还能通过旋转角度差捕捉相对位置关系。
适配多模态任务：
- RoPE 能同时适用于文本、图像、视频等多模态场景的位置编码需求。
- 在 FLUX.1 中，用于处理文本的序列关系和图像的空间关系。
自然的时空特性建模：
- 在视频任务中，可扩展为三维旋转式编码，处理时间维和空间维的关系。

应用场景

多模态任务：
- 在 FLUX.1 中，用于图像和文本模态的联合处理：
  - 文本位置被编码为序列信息。
  - 图像位置被编码为二维空间关系。
视频生成：
- 支持视频任务的时空建模，可将时间维引入位置编码。
长序列任务：
- 如文本生成、长文档理解中，RoPE 能显著提升相对位置的建模能力。

总结

旋转式位置编码（RoPE）是一种高效、灵活的位置编码方案：

核心机制：通过二维旋转矩阵嵌入位置信息，既能建模绝对位置，又能自然捕捉相对位置。
适用场景：从长序列任务到多模态场景，再到视频生成，RoPE 展现出强大的扩展性和适配能力。

原文地址：https://blog.csdn.net/qq_42410605/article/details/144005390

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：【作业九】RNN-SRN-Seq2Seq
下一篇：fastjson不出网打法—BCEL链

nvm 安装某个版本的node，缺少npm包
1、根据地址下载对应文件 https://github.com/npm/cli/archive/v6.14.16.zip。2、解压文件到v12.22.12 的node_modules/npm 目录下。
阅读更多2024-11-27
ffmpeg RTP PS推流
流媒体开发
阅读更多2024-11-27
JavaWeb——SpringBoot原理
properties > yml(推荐) > yaml命令行参数 > Java系统属性 > 配置文件自定义的类，使用@component及其衍生注解第三方的，使用@Bean注解
阅读更多2024-11-27
【系统架构设计师】真题论文: 论软件系统架构评估（包括解题思路和素材）
软件系统架构是软件质量的基石。架构分析与权衡：根据收集的场景和构建的属性模型，对架构进行深入分析，评估架构在满足不同质量属性方面的优势和劣势，并进行权衡。例如，在考虑提高系统的性能时，可能需要增加硬件
阅读更多2024-11-27
CodeIgniter如何手动将模型连接到数据库
在CodeIgniter中，模型通常是自动与数据库连接的，因为模型类（CI_Model）已经内置了对数据库操作的支持。但是，如果你需要手动指定数据库连接或者进行一些特殊的数据库配置，你可以通过几种方式
阅读更多2024-11-27
uname -m（machine）命令用于显示当前系统的机器硬件架构（Unix Name）
这意味着您的 Mac Mini 使用的是 Apple 的 M1 或更新的芯片，这些芯片基于 ARM 架构。希望这些信息对您有帮助！如果您有其他问题或需要进一步的帮助，请随时告诉我。命令可以查看系统的详
阅读更多2024-11-27
微服务篇-深入了解使用 RestTemplate 远程调用、Nacos 注册中心基本原理与使用、OpenFeign 的基本使用
比如刚才通过 Swagger 测试商品查询接口，而这种查询就是通过 http 请求的方式来完成的，不仅仅可以实现远程查询，还可以实现新增、删除等各种远程请求。项目的架构设计、开发模式都非常简单。在微服
阅读更多2024-11-27
[自动化测试：实践01]：2：（4-1 ）元素定位（selenium）在实际场景中的应用2
熟悉元素定位的基本用法。结合ActionChains实现网页上的鼠标自动操作测试。
阅读更多2024-11-27
【小白学机器学习36】关于独立概率，联合概率，交叉概率，交叉概率和，总概率等概念辨析的例子
关于独立概率，联合概率，交叉概率，交叉概率和，总概率类型含义计算联合概率两个独立事件一起发生的概率两个事件概率相乘边缘概率同1行 /同1列的所有联合概率相加的总和两个联合概率相加条件概率一定已知条件下
阅读更多2024-11-27
mysql覆盖索引&回表查询
就是查询的字段是索引里的。打个比方，有个user表，字段为id、name、gender，id是主键，有聚簇索引，name是非聚簇索引。第一条语句符合覆盖索引，因为查询的字段id和name是是name索
阅读更多2024-11-27