自注意力（self_attention）和位置编码

🕗 发布于 2024-09-22 05:24 深度学习 人工智能 机器翻译 pytorch 机器学习

1.自注意力（self_attention）公式

2.代码实现

import math
import torch
from torch import nn
import dltools


num_hiddens, num_heads = 100, 5
dropout = 0.2
#使用多头注意力机制时， 让key_size,  query_size,  value_size都=num_hiddens
attention = dltools.MultiHeadAttention(num_hiddens, num_hiddens, num_hiddens, num_hiddens, num_heads, dropout)
#dropout与.eval()搭配使用
attention.eval()

MultiHeadAttention(
  (attention): DotProductAttention(
    (dropout): Dropout(p=0.2, inplace=False)
  )
  (W_q): Linear(in_features=100, out_features=100, bias=False)
  (W_k): Linear(in_features=100, out_features=100, bias=False)
  (W_v): Linear(in_features=100, out_features=100, bias=False)
  (W_o): Linear(in_features=100, out_features=100, bias=False)
)

batch_size, num_queries, valid_lens = 2, 4, torch.tensor([3, 2])
X = torch.ones((batch_size, num_queries, num_hiddens))
#创建不带位置信息的自注意力，就是让queries/keys/values都传X
attention(X, X, X, valid_lens).shape

torch.Size([2, 4, 100])

2.1位置编码的代码实现

#位置编码
class PositionalEncoding(nn.Module):
    def __init__(self, num_hiddens, dropout, max_len=10000, **kwargs):
        super().__init__(**kwargs)
        self.dropout = nn.Dropout(dropout)
        #创建一个存放位置编码的tensor
        self.P = torch.zeros((1, max_len, num_hiddens))  #第0维度的1，便于后面与其他数据计算时进行广播机制
        #除号左边的shape=（10000， 1），1在进行除法运算会进行广播机制，变成50
        X = torch.arange(max_len, dtype=torch.float32).reshape(-1, 1) / torch.pow(10000, torch.arange(0, num_hiddens, 2, dtype=torch.float32)/num_hiddens)
        #取出所有的偶数列， 进行赋值
        self.P[:, :, 0::2] = torch.sin(X)
        #取出所有的奇数列， 进行赋值
        self.P[:, :, 1::2] = torch.cos(X)
        
    #定义前向传播
    def forward(self, X):
        #: X.shape[1]表示只会索引到X的最大值
        X = X + self.P[:, : X.shape[1], :].to(X.device)
        return self.dropout(X)

encoding_dim, num_steps = 32, 60
#创建位置编码对象
pos_encoding = PositionalEncoding(encoding_dim, dropout=0)
pos_encoding.eval() #
X = pos_encoding(torch.zeros(1, num_steps, encoding_dim))
#调用pos_encoding中的self.P属性
P = pos_encoding.P[:, :X.shape[1], :]
X.shape, P.shape

(torch.Size([1, 60, 32]), torch.Size([1, 60, 32]))

#dltools绘图
dltools.plot(torch.arange(num_steps), P[0, :, 6:10].T, xlabel='Row (position)', figsize=(6, 2.5), legend=['Col %d' % d for d in torch.arange(6,10)])

3.知识点个人理解

原文地址：https://blog.csdn.net/Hiweir/article/details/142418622

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：Ubuntu NFS 搭建及配置
下一篇：Ubuntu 24.04 上安装 Conda

1466C/D/E/G/H信号发生器
Ceyear 1466系列信号发生器是一款面向微波毫米波尖端测试的通用测试仪器，频率范围覆盖宽、信号频谱纯度高，具有高准确度和大动态范围的功率输出，搭配单机双射频通道的设计，可满足用户多种测试要求。1
阅读更多2024-09-24
webrtc-candidate形成分析
webrtc
阅读更多2024-09-24
海山数据库(He3DB)源码详解：CommitSubTransaction函数
李超，移动云数据库工程师，负责云原生数据库He3DB的研发。弹出子事务节点。恢复事务状态为默认状态。调用PopTransaction()函数从事务链栈中弹出子事务节点。李超，移动云数据库工程师，负责云
阅读更多2024-09-24
【bug记录9】transform 3D变化的时候，背面按钮翻转到正面的时候无法点击/选中
2、让front一开始就作为正面transform:rotateY(0deg)，而父元素初始设为transform:rotateY(180deg)。在3d效果中，背面的元素翻转过来只是在gpu渲染层面
阅读更多2024-09-24
PyCharm 安装教程
你可以选择黑色的 Darcula 主题，或者保持白色的 Light主题，根据个人喜好进行选择。5. 输入代码后，点击右上角的绿色三角形按钮，或右键选择 **Run**，运行你的 Python 程序。你
阅读更多2024-09-24
【论文阅读】Act3D: 3D Feature Field Transformers for Multi-Task Robotic Manipulation
3d感知表示非常适合机器人操作，因为它们。许多操作任务在末端执行器姿态预测中，这对于处理来说计算成本很高。因此，大多数操作policies直接在2d中运行，上述3d归纳偏差。在本文中，我们介绍了act
阅读更多2024-09-24
使用 Docker 部署 RStudio 的终极教程
不同版本的R包可能会引发兼容性问题。以Seurat包为例，V4和V5之间存在较大差异，而这些版本所依赖的其他R包也会对现有代码产生影响。如果你感兴趣，可以参考我的【Seuarat4和Seurat5 共
阅读更多2024-09-24
Etcd权限认证管理
9 使用root持有的读写角色tset权限操作资源key成功 ctl put key "test角色授予root用户为key键只读操作" --user=root:root roo
阅读更多2024-09-24
sql语法学习：关键点和详细解释
..用于创建数据库。用于创建表，指定列名、数据类型和约束条件。SQL语法涵盖了数据库操作的各个方面，从基本的增删改查到复杂的查询、事务控制和高级功能如存储过程和触发器。掌握这些语法将帮助你有效地管理和
阅读更多2024-09-24
cocos creator 集成ffmpeg
node_modules@ffmpeg\ffmpeg\package.json添加。
阅读更多2024-09-24

自注意力（self_attention）和位置编码

1.自注意力（self_attention）公式

2.代码实现

2.1位置编码的代码实现

3.知识点个人理解

相关文章