手撕正弦-余弦位置编码（Sinusoidal Positional Encoding）

🕗 发布于 2024-10-06 23:06 prompt

请添加图片描述

改写后的代码：

import torch
import math
import torch.nn as nn

class PositionalEncoder(nn.Module):
    def __init__(self, d_model, max_seq_len=80):
        super().__init__()
        self.d_model = d_model
        
        # 根据 pos 和 i 创建一个常量 PE 矩阵
        pe = torch.zeros(max_seq_len, d_model)
        for pos in range(max_seq_len):
            for i in range(0, d_model, 2):
                pe[pos, i] = math.sin(pos / (10000 ** ((2 * i) / d_model)))
                pe[pos, i + 1] = math.cos(pos / (10000 ** ((2 * (i + 1)) / d_model)))

        # 增加 batch 维度
        pe = pe.unsqueeze(0)
        
        # 将 pe 注册为 buffer，不作为模型的参数，但会在模型中使用
        self.register_buffer('pe', pe)

    def forward(self, x):
        # 使得词嵌入表示相对大一些
        x = x * math.sqrt(self.d_model)
        
        # 获取输入序列的长度
        seq_len = x.size(1)
        
        # 增加位置编码到词嵌入表示中，不需要梯度
        x = x + self.pe[:, :seq_len].cuda()
        
        return x

代码解读：

初始化位置编码矩阵：
- 使用 torch.zeros(max_seq_len, d_model) 初始化了一个大小为 (max_seq_len, d_model) 的零矩阵，之后通过两个循环来填充位置编码的值：
  - 偶数索引维度上用正弦函数生成值。
  - 奇数索引维度上用余弦函数生成值。
unsqueeze(0)：
- 给 pe 增加了一个 batch 维度，以便在输入的 batch 中应用相同的编码矩阵。
register_buffer：
- self.register_buffer('pe', pe)：将 pe 注册为模型的 buffer，它不会在训练过程中更新（即不参与梯度计算），但会作为模型的一部分保存在模型的状态字典中。
前向传播函数 forward：
- 首先通过 x * math.sqrt(self.d_model) 放大输入的词嵌入，这与 Transformer 中的设计一致，用于在数值上平衡词嵌入和位置编码的量级。
- 然后将生成的 pe（位置编码）添加到词嵌入 x 上，self.pe[:, :seq_len].cuda() 取出与输入序列长度相同的部分，并传到 GPU 上（如果在 GPU 上训练）。
注意：这里移除了 Variable，因为现代 PyTorch 不再需要用 Variable 包装张量，直接使用张量即可。由于 pe 不需要计算梯度，在 register_buffer 注册时就默认不参与梯度计算。

如何使用：

你可以将这个类实例化并在模型中使用。例如：

pos_encoder = PositionalEncoder(d_model=512, max_seq_len=100)
x = torch.randn(32, 50, 512)  # 一个 batch 的输入，大小为 (batch_size, seq_len, d_model)
output = pos_encoder(x)  # 加入位置编码

这样就可以为输入序列的每个 token 添加位置编码，并准备好用于 Transformer 模型的输入了。如果你有其他问题，欢迎继续提问！

位置编码的作用：

通过使用正弦和余弦函数，Transformer 的位置编码可以在不同维度上引入不同的周期变化，这样模型能够感知序列中每个 token 的位置以及相对距离。这种编码具有两个优点：

周期性：正弦和余弦的周期性可以很好地表示序列中不同位置之间的关系。
连续性：相邻位置的编码向量非常接近，能够捕捉到相邻 token 之间的顺序信息。

可视化

import numpy as np
import matplotlib.pyplot as plt

# 设置参数
pos = 10  # 位置
d = 512   # 隐藏层维度
i_vals = np.arange(0, d // 2)  # 取一半的维度进行计算

# 计算PE(pos, 2i) 和 PE(pos, 2i+1)
pe_sin = np.sin(pos / (10000 ** (2 * i_vals / d)))
pe_cos = np.cos(pos / (10000 ** (2 * i_vals / d)))

# 画图
plt.figure(figsize=(10, 6))
plt.plot(2 * i_vals, pe_sin, label='sin(pos / 10000^(2i/d))', color='blue')
plt.plot(2 * i_vals + 1, pe_cos, label='cos(pos / 10000^(2i/d))', color='orange')

plt.title(f"Positional Encoding for pos = {pos} and d = {d}")
plt.xlabel('Dimension Index')
plt.ylabel('Value')
plt.legend()
plt.grid(True)
plt.show()

在这里插入图片描述

from mpl_toolkits.mplot3d import Axes3D

# 设置参数
positions = [0, 5, 10, 15, 20]  # 多个位置
d = 512   # 隐藏层维度
i_vals = np.arange(0, d // 2)  # 取一半的维度进行计算

# 创建三维数组保存不同位置的编码
pe_values = np.zeros((len(positions), d))

for idx, pos in enumerate(positions):
    pe_sin = np.sin(pos / (10000 ** (2 * i_vals / d)))
    pe_cos = np.cos(pos / (10000 ** (2 * i_vals / d)))
    pe_values[idx, 2 * i_vals] = pe_sin
    pe_values[idx, 2 * i_vals + 1] = pe_cos

# 画三维图
fig = plt.figure(figsize=(10, 8))
ax = fig.add_subplot(111, projection='3d')

# 为每个位置画出曲线
for idx, pos in enumerate(positions):
    ax.plot(np.arange(d), [pos]*d, pe_values[idx], label=f'pos={pos}')

# 设置标签
ax.set_xlabel('Dimension Index')
ax.set_ylabel('Position')
ax.set_zlabel('PE Value')
ax.set_title('Positional Encoding for Different Positions')
ax.legend()

plt.show()

在这里插入图片描述

这张三维图展示了不同位置（pos = 0, 5, 10, 15, 20）下的位置编码值（Positional Encoding）随维度变化的情况。每条曲线代表一个位置对应的编码向量，横轴是维度索引，纵轴是编码值，颜色区分不同的位置。

从图中可以看到，不同的位置编码在不同维度上变化的模式不同，但都有一定的周期性。随着位置的增加，编码值的形状会有所变化，这种编码允许 Transformer 模型捕捉序列中 token 的相对位置和顺序。

原文地址：https://blog.csdn.net/weixin_46460463/article/details/142729471

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：大模型技术进阶路线，有了基础应该怎么进阶？
下一篇：Top4免费音频剪辑软件大比拼，2024年你选哪一款？

Arduino UNO R3自学笔记15 之 Arduino如何驱动数码管？
Arduino使用数码管。
阅读更多2024-10-07
基于Springboot的宠物咖啡馆平台的设计与实现(源码+定制+参考）
博主介绍： ✌我是阿龙，一名专注于Java技术领域的程序员，全网拥有10W+粉丝。作为CSDN特邀作者、博客专家、新星计划导师，我在计算机毕业设计开发方面积累了丰富的经验。同时，我也是掘金、华为云、
阅读更多2024-10-07
判断两棵树是否相等
判断两棵树是否相等
阅读更多2024-10-07
基于vue框架的大学生心理健康服务平台mwavu（程序+源码+数据库+调试部署+开发环境）系统界面在最后面。
项目功能：学生,心理专家,心理咨询,健康文章,咨询回复,心理案例,监测预警,解压游戏,放松音乐。
阅读更多2024-10-07
Spring Boot医院管理系统：数据驱动的医疗
创建动态页面比较方便。同时也大大提高了手的能力，使其难以充分体会探索的乐趣和成功的创作过程，设计过程中汲取的东西，是一笔宝贵的财富。
阅读更多2024-10-07
人机协作：科技与人类智慧的融合
人机协作指的是人与智能机器或系统通过协同工作，结合各自的优势来完成特定任务或解决问题的过程。在这个过程中，机器不仅仅是工具，它们可以独立做出决策，执行复杂任务，而人类则提供创造性、判断力和情感因素，两
阅读更多2024-10-07
边缘计算：从云端到终端的智能进化
边缘计算为数据的本地处理提供了新的思路，尤其在需要实时响应和数据安全的场景中显示出巨大优势。随着技术的不断进步，边缘计算将在未来的智能城市、工业自动化、医疗健康等领域发挥越来越重要的作用。企业应抓住这
阅读更多2024-10-07
javaweb-请求和响应
常见响应状态码：常见的响应头：步骤：1.idea中创建springboot模块，编写代码处理请求，并启动2.postman中发送请求，(get请求带参数)，(post请求选择上面图片的)下面演示的是
阅读更多2024-10-07
一文读懂Dimitra：让区块链的种子在Web3农业体系生根
DMTR是整个Dimitra生态的核心通证，面对未来数万亿美金的农业市场，可以说是相当的稀有珍贵，且在生态治理过程中对DMTR进行了多方赋能，让DMTR在数量少的情况下更有价值。持有DMTR的用户不但
阅读更多2024-10-07
点餐小程序实战教程16餐厅管理
我们本篇介绍了餐厅管理功能的开发，涉及到数据源的创建，管理页面的自动生成以及地图的集成。有了地理位置信息，我们在小程序里就可以根据当前位置来计算最近的距离，尤其在多门店选择的时候比较有用。
阅读更多2024-10-07

手撕正弦-余弦位置编码（Sinusoidal Positional Encoding）

改写后的代码：

代码解读：

如何使用：

位置编码的作用：

可视化

相关文章