Llama旋转位置编码代码实现及详解

🕗 发布于 2024-11-13 09:58 llama

旋转位置编码RoPE

在旋转位置编码与Transformer和BERT之间的区别中介绍了旋转位置编码（RoPE）的特点和优势，这种输入长度动态可变的优势使得在Llama编码时，不需要掩码将多余的嵌入掩住。为了详细了解RoPE是如何实现的，接下来我们使用代码一步一步的来亲自实现RoPE编码！

RoPE代码的实现

1、输入编码
我们生成一个隐藏层维度为6，token长度为3的输入，然后进行RoPE位置编码

dim = 6
seq_len = 3
token_embeddings = torch.randn(seq_len , dim) 
#tensor([[ 0.1005, -1.6487, -0.2885,  0.4638, -1.2203,  1.6306],
#        [ 2.0363, -0.1143, -1.5050, -0.9562, -0.1079,  0.4749],
#        [ 0.3193,  0.9284, -0.0137, -0.2055, -0.9192,  1.3885]])

2、RoPE编码

对于公式

我们首先得到 $\theta$

base = 10000
theta = 1/(base ** (torch.arange(0, dim/2).float() / (dim / 2)))
# tensor([1.0000, 0.0464, 0.0022])

然后我们对每个token中每个元素对计算要旋转的角度

 # 得到m序列
m= torch.arange(0, seq_len)
# tensor([0, 1, 2])

# 计算theta和m的外积得到每个位置的旋转角度
all_theta = torch.outer(m, theta)
#tensor([[0.0000, 0.0000, 0.0000],
#        [1.0000, 0.0464, 0.0022],
#        [2.0000, 0.0928, 0.0043]])

得到了角度theta之后，我们就可以在复平面中对编码进行旋转了，在复平面中根据公式（cos $\theta$ + sin $\theta$ j ）* （x + yj） = (cos $\theta$ * x - sin $\theta$ y) + (sin $\theta$ x + cos $\theta$ y) j 可以实现位置的旋转了

# 计算变换后的位置
# 1、将嵌入投影到复数平面
embedding_real_pair = token_embeddings.reshape(*token_embeddings.shape[:-1], -1, 2)
#tensor([[[ 0.1005, -1.6487],
#         [-0.2885,  0.4638],
#         [-1.2203,  1.6306]],
#
#       [[ 2.0363, -0.1143],
#         [-1.5050, -0.9562],
#         [-0.1079,  0.4749]],
#
#        [[ 0.3193,  0.9284],
#         [-0.0137, -0.2055],
#         [-0.9192,  1.3885]]])

embedding_complex_pair = torch.view_as_complex(embedding_real_pair)
#tensor([[ 0.1005-1.6487j, -0.2885+0.4638j, -1.2203+1.6306j],
#        [ 2.0363-0.1143j, -1.5050-0.9562j, -0.1079+0.4749j],
#        [ 0.3193+0.9284j, -0.0137-0.2055j, -0.9192+1.3885j]])

# 2、将旋转角度投影到复数平面
all_theta = all_theta[: token_embeddings.shape[-2]]
#tensor([[0.0000, 0.0000, 0.0000],
#        [1.0000, 0.0464, 0.0022],
#        [2.0000, 0.0928, 0.0043]])

theta_complex_pair = torch.polar(torch.ones_like(all_theta), all_theta)
#tensor([[ 1.0000+0.0000j,  1.0000+0.0000j,  1.0000+0.0000j],
#        [ 0.5403+0.8415j,  0.9989+0.0464j,  1.0000+0.0022j],
#        [-0.4161+0.9093j,  0.9957+0.0927j,  1.0000+0.0043j]])

# 3、旋转后嵌入位置 = 复数平面上初始位置 * 复数平面上角度坐标
rotated_complex_embedding = embedding_complex_pair * theta_complex_pair
#tensor([[ 0.1005-1.6487j, -0.2885+0.4638j, -1.2203+1.6306j],
#        [ 1.1964+1.6518j, -1.4590-1.0250j, -0.1089+0.4746j],
#        [-0.9770-0.0960j,  0.0054-0.2059j, -0.9251+1.3845j]])

# 4、将复数平面的嵌入投影到实数平面
rotated_real_embedding = torch.view_as_real(rotated_complex_embedding)
#tensor([[[ 0.1005, -1.6487],
#         [-0.2885,  0.4638],
#         [-1.2203,  1.6306]],
#
#        [[ 1.1964,  1.6518],
#         [-1.4590, -1.0250],
#         [-0.1089,  0.4746]],
#
#        [[-0.9770, -0.0960],
#         [ 0.0054, -0.2059],
#         [-0.9251,  1.3845]]])
rotated_real_embedding = rotated_real_embedding.reshape(*token_embeddings.shape[:-1], -1)
#tensor([[ 0.1005, -1.6487, -0.2885,  0.4638, -1.2203,  1.6306],
#        [ 1.1964,  1.6518, -1.4590, -1.0250, -0.1089,  0.4746],
#        [-0.9770, -0.0960,  0.0054, -0.2059, -0.9251,  1.3845]])

原文地址：https://blog.csdn.net/weixin_40732165/article/details/143635503

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：C# DataTable使用Linq查询详解
下一篇：鸿蒙next版开发：ArkTS组件通用属性（文本通用）

sql server 查看io资源使用
如果输出physical reads 或者 read-ahead reads 大于0 ，则表示有物理读取。
阅读更多2024-11-14
opencv入门学习总结
import cv2 # 返回当前安装的 OpenCV 库的版本信息并且是字符串格式 print(cv2 . getVersionString()) """作用：它可以
阅读更多2024-11-14
stable-diffusion-3 ，每天免费试用
官方space，童叟无欺，科学试用。
阅读更多2024-11-14
AI绘画经验（stable-diffusion）
在Stable Diffusion中，编码器将图像压缩成一个较小的Latent特征向量，这个向量包含了图像的关键信息，并且可以作为U-Net的输入。在Stable Diffusion中，文本编码器用于
阅读更多2024-11-14
【Linux网络编程】Socket编程--TCP：echo server | 多线程远程命令执行
【Linux网络编程】Socket编程--TCP：echo server | 多线程远程命令执行
阅读更多2024-11-14
vLLM×Milvus：如何高效管理GPU内存，减少大模型幻觉
大语言模型（LLM）是功能丰富且强大的 AI 系统，能够解决各个领域内的众多问题。它们的发展速度非常快，新模型不断被频繁推出。通常，新推出的 LLM 在处理各种任务时的性能更好。例如 Mistral、
阅读更多2024-11-14
一个功能强大的文档解析和转换工具，支持PDF、DOCX、PPTX和Markdown等
Docling是一个功能强大的文档解析和转换工具，支持多种文档格式，提供先进的PDF理解功能，并允许用户将文档转换为Markdown和JSON格式。它还具有元数据提取、OCR支持、无缝集成以及其他高级
阅读更多2024-11-14
计算机网络：运输层 —— TCP 协议概述与 TCP 报文段首部格式
传输控制协议（Transmission Control Protocol，TCP）协议是互联网上最常用的传输层协议之一，它负责提供可靠的端到端数据传输服务。TCP 协议采用连接导向的通信方式，通过三次
阅读更多2024-11-14
MySQL常见面试题
MySQL常见面试题
阅读更多2024-11-14
《Redis 实战基础、持久化机制及与 MySQL 一致性解决方案》
本文探讨了Redis的持久化机制及其在不同场景下的应用，并简要介绍了与MySQL数据同步的一致性解决方案。希望这些内容能帮助读者更好地理解和使用Redis，提升应用系统的性能和可靠性。
阅读更多2024-11-14

Llama旋转位置编码代码实现及详解

相关文章