Transformer中的自注意力是怎么实现的？

🕗 发布于 2024-07-19 08:03 transformer 深度学习 pytorch

在Transformer模型中，自注意力（Self-Attention）是核心组件，用于捕捉输入序列中不同位置之间的关系。自注意力机制通过计算每个标记与其他所有标记之间的注意力权重，然后根据这些权重对输入序列进行加权求和，从而生成新的表示。下面是实现自注意力机制的代码及其详细说明。

自注意力机制的实现

1. 计算注意力得分（Scaled Dot-Product Attention）

自注意力机制的基本步骤包括以下几个部分：

线性变换：将输入序列通过三个不同的线性变换层，得到查询（Query）、键（Key）和值（Value）矩阵。
计算注意力得分：通过点积计算查询与键的相似度，再除以一个缩放因子（通常是键的维度的平方根），以稳定梯度。
应用掩码：在计算注意力得分后，应用掩码（如果有），避免未来信息泄露（用于解码器中的自注意力）。
计算注意力权重：通过softmax函数将注意力得分转换为概率分布。
加权求和：使用注意力权重对值进行加权求和，得到新的表示。

2. 多头注意力机制（Multi-Head Attention）

为了捕捉不同子空间的特征，Transformer使用多头注意力机制。通过将查询、键和值分割成多个头，每个头独立地计算注意力，然后将所有头的输出连接起来，并通过一个线性层进行组合。

自注意力机制代码实现

import torch
import torch.nn as nn
import torch.nn.functional as F

# Scaled Dot-Product Attention
def scaled_dot_product_attention(query, key, value, mask=None):
    d_k = query.size(-1)
    scores = torch.matmul(query, key.transpose(-2, -1)) / torch.sqrt(torch.tensor(d_k, dtype=torch.float32))
    print(f"Scores shape: {scores.shape}")  # (batch_size, num_heads, seq_length, seq_length)
    
    if mask is not None:
        scores = scores.masked_fill(mask == 0, float('-inf'))
    
    attention_weights = F.softmax(scores, dim=-1)
    print(f"Attention weights shape: {attention_weights.shape}")  # (batch_size, num_heads, seq_length, seq_length)
    
    output = torch.matmul(attention_weights, value)
    print(f"Output shape after attention: {output.shape}")  # (batch_size, num_heads, seq_length, d_k)
    return output, attention_weights

# Multi-Head Attention
class MultiHeadAttention(nn.Module):
    def __init__(self, d_model, num_heads):
        super(MultiHeadAttention, self).__init__()
        assert d_model % num_heads == 0
        
        self.d_model = d_model
        self.num_heads = num_heads
        self.d_k = d_model // num_heads
        
        self.linear_query = nn.Linear(d_model, d_model)
        self.linear_key = nn.Linear(d_model, d_model)
        self.linear_value = nn.Linear(d_model, d_model)
        self.linear_out = nn.Linear(d_model, d_model)
        
    def forward(self, query, key, value, mask=None):
        batch_size = query.size(0)
        
        # Linear projections
        query = self.linear_query(query)
        key = self.linear_key(key)
        value = self.linear_value(value)
        print(f"Query shape after linear: {query.shape}")  # (batch_size, seq_length, d_model)
        print(f"Key shape after linear: {key.shape}")      # (batch_size, seq_length, d_model)
        print(f"Value shape after linear: {value.shape}")  # (batch_size, seq_length, d_model)
        
        # Split into num_heads
        query = query.view(batch_size, -1, self.num_heads, self.d_k).transpose(1, 2)
        key = key.view(batch_size, -1, self.num_heads, self.d_k).transpose(1, 2)
        value = value.view(batch_size, -1, self.num_heads, self.d_k).transpose(1, 2)
        print(f"Query shape after split: {query.shape}")   # (batch_size, num_heads, seq_length, d_k)
        print(f"Key shape after split: {key.shape}")       # (batch_size, num_heads, seq_length, d_k)
        print(f"Value shape after split: {value.shape}")   # (batch_size, num_heads, seq_length, d_k)
        
        # Apply scaled dot-product attention
        x, attention_weights = scaled_dot_product_attention(query, key, value, mask)
        
        # Concatenate heads
        x = x.transpose(1, 2).contiguous().view(batch_size, -1, self.d_model)
        print(f"Output shape after concatenation: {x.shape}")  # (batch_size, seq_length, d_model)
        
        # Final linear layer
        x = self.linear_out(x)
        print(f"Output shape after final linear: {x.shape}")   # (batch_size, seq_length, d_model)
        
        return x, attention_weights

# 示例用法
d_model = 512
num_heads = 8
batch_size = 64
seq_length = 10

# 假设输入是随机生成的张量
query = torch.rand(batch_size, seq_length, d_model)
key = torch.rand(batch_size, seq_length, d_model)
value = torch.rand(batch_size, seq_length, d_model)

# 创建多头注意力层
mha = MultiHeadAttention(d_model, num_heads)
output, attention_weights = mha(query, key, value)

print("最终输出形状:", output.shape)  # 最终输出形状: (batch_size, seq_length, d_model)
print("注意力权重形状:", attention_weights.shape)  # 注意力权重形状: (batch_size, num_heads, seq_length, seq_length)

每一步的形状解释

Linear Projections：
- Query, Key, Value分别经过线性变换。
- 形状：[batch_size, seq_length, d_model]
Split into Heads：
- 将Query, Key, Value分割成多个头。
- 形状：[batch_size, num_heads, seq_length, d_k]，其中d_k = d_model // num_heads
Scaled Dot-Product Attention：
- 计算注意力得分（Scores）。
- 形状：[batch_size, num_heads, seq_length, seq_length]
- 计算注意力权重（Attention Weights）。
- 形状：[batch_size, num_heads, seq_length, seq_length]
- 使用注意力权重对Value进行加权求和。
- 形状：[batch_size, num_heads, seq_length, d_k]
Concatenate Heads：
- 将所有头的输出连接起来。
- 形状：[batch_size, seq_length, d_model]
Final Linear Layer：
- 通过一个线性层将连接的输出转换为最终的输出。
- 形状：[batch_size, seq_length, d_model]

通过这种方式，我们可以清楚地看到每一步变换后的张量形状，理解自注意力和多头注意力机制的具体实现细节。

代码说明

scaled_dot_product_attention：实现了缩放点积注意力机制，计算查询和键的点积，应用掩码，计算softmax，然后使用权重对值进行加权求和。
MultiHeadAttention：实现了多头注意力机制，包括线性变换、分割、缩放点积注意力和最后的线性变换。

多头注意力机制的细节

线性变换：将输入序列通过线性层转换为查询、键和值的矩阵。
分割头：将查询、键和值的矩阵分割为多个头，每个头的维度是[batch_size, num_heads, seq_length, d_k]。
缩放点积注意力：对每个头分别计算缩放点积注意力。
连接头：将所有头的输出连接起来，得到[batch_size, seq_length, d_model]的张量。
线性变换：通过一个线性层将连接的输出转换为最终的输出。

原文地址：https://blog.csdn.net/SisterRu/article/details/140534709

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：PyTorch 深度学习实践-处理多维特征的输入
下一篇：Pandas库学习之DataFrame.isnull()函数

Redisson 中开启看门狗（watchdog）机制
这个配置会启动一个定时任务，在业务释放锁之前，会一直不停的增加这个锁的有效时间，从而保证在业务执行完毕前，这把锁不会被提前释放掉。方法，并设置合理的锁超时时间。看门狗机制会在锁的持有期间自动续期，确保
阅读更多2024-11-17
Spring框架之中介者模式 (Mediator Pattern)
中介者模式在实际开发中有许多应用，特别是在需要对象间协作但又不希望它们之间过于紧密耦合的场景。
阅读更多2024-11-17
eBPF on Go
本篇内容是根据2021年10月份#201 eBPF and Go音频录制内容的整理与翻译eBPF（已有 7 年历史）是一个可以在 Linux 内核中运行代码的沙箱。它最初是一种构建防火墙的技术，随着时
阅读更多2024-11-17
需求驱动学习
需求驱动方法确实强调三种主要的需求类型，它们对软件系统的设计和开发至关重要。
阅读更多2024-11-17
一文了解 node 包管理工具: npm npx nvm nrm
npx是一个工具，npm v5.2.0引入的一条命令（npx），一个npm包执行器，指在提高从npm注册表使用软件包时的体验，npm使得它非常容易地安装和管理托管在注册表上的依赖项，npx使得使用C
阅读更多2024-11-17
IDEA自定义文件打开格式
介绍在IDEA中自定义文件打开格式的方法，比如一个文件，可以选择用txt格式打开，也可以选择用xml格式打开，也可以用java格式打开等等，通过这个方法可以方便的用任意格式在idea中打开想要打开的文
阅读更多2024-11-17
[模板总结] - 单向链表LinkedList操作
Leetcode。
阅读更多2024-11-17
55.跳跃游戏
贪心算法，每次保存覆盖数最大的范围，只要能超过重点就行。
阅读更多2024-11-17
docker构建多平台容器
docker 多平台构建并推送到仓库
阅读更多2024-11-17
JavaScript总结
ECMAScriptDOMBOM是什么?是由ECMA国际(原欧洲计算机制造商协会)进行标准化的一门编程语言，这种语言在万维网上应用广泛，它往往被称为JavaScript或JScript，但实际上后两者
阅读更多2024-11-17