深度学习中的多头注意力机制：原理与实现解析

🕗 发布于 2024-11-08 13:08 深度学习 人工智能 python 神经网络 pandas

4. Multi-Head Attention

深度学习中的多头注意力机制：原理与实现解析

在自然语言处理和计算机视觉的任务中，多头注意力（Multi-Head Attention）已经成为Transformer模型中必不可少的组成部分。多头注意力机制不仅能够让模型关注到输入的不同方面，还能更好地捕获词语间复杂的上下文关系。今天，我们将深入解析多头注意力的原理与实现！

为什么需要多头注意力？

单一的注意力头只能捕获句子中的一种关系或模式，而在实际应用中，句子中的不同词语往往有复杂的关系。多头注意力通过并行多个注意力头，让模型能够关注到输入的多个不同层面，从而更全面地理解输入内容。每个头会从不同的角度捕捉句子中的依赖关系，有助于提升模型的表达能力和对上下文的理解。

多头注意力的工作原理

1. 生成 Q、K、V 矩阵

多头注意力机制的输入是三个矩阵：Query（查询）矩阵 Q，Key（键）矩阵 K 和 Value（值）矩阵 V，每个矩阵都包含输入序列的信息：

Query（Q）：代表要关注的内容
Key（K）：输入特征标签，用于表示每个词的特征
Value（V）：实际包含的内容信息

2. 多头注意力的计算步骤

假设我们有一个输入向量 $x$ 和 $h$ 个注意力头，每个头的步骤如下：

线性变换：对输入向量 $x$ 进行线性变换，生成 $Q, K, V$ 三个矩阵。每个注意力头有自己的权重矩阵，这使得每个头都可以从不同的视角理解输入。
计算注意力权重：通过点积注意力计算每个 Query 和 Key 之间的相似度，用 softmax 得到注意力权重，公式如下：

$$

\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{Q \cdot K^T}{\sqrt{d_k}}\right) \cdot V

$$

其中 $d_k$ 是 Key 的维度，用于缩放，防止数值过大。
并行计算多个头：对每个头进行相同的计算。每个头的注意力权重不同，这使得每个头可以关注不同的上下文关系。
合并输出：将多个头的输出拼接，生成最终的多头注意力结果。通常通过线性变换将结果映射回原来的维度。

多头注意力公式

假设我们有 $h$ 个注意力头，每个头的输出为 $\text{Attention}_i(Q_i, K_i, V_i)$ ，最终的多头注意力输出为：

\text{MultiHead}(Q, K, V) = \text{Concat}(\text{head}_1, \dots, \text{head}_h) \cdot W^O

其中：

$\text{head}_i = \text{Attention}(QW_i^Q, KW_i^K, VW_i^V)$
$W_i^Q, W_i^K, W_i^V$ 是每个头的线性变换矩阵。
$W^O$ 是最终输出的线性映射矩阵，用于将拼接结果映射回原始维度。

自己实现多头注意力类

接下来我们通过代码实现一个简单的 MultiHeadAttention 类，以更好地理解多头注意力机制的实现细节。

import torch
import torch.nn as nn

class MultiHeadAttention(nn.Module):
    def __init__(self, embed_size, heads):
        super(MultiHeadAttention, self).__init__()
        self.embed_size = embed_size
        self.heads = heads
        self.head_dim = embed_size // heads

        # 确保嵌入维度能整除头数
        assert (
            self.head_dim * heads == embed_size
        ), "Embedding size needs to be divisible by heads"

        # 定义 Q、K、V 的线性层
        self.values = nn.Linear(self.head_dim, self.head_dim, bias=False)
        self.keys = nn.Linear(self.head_dim, self.head_dim, bias=False)
        self.queries = nn.Linear(self.head_dim, self.head_dim, bias=False)
        self.fc_out = nn.Linear(heads * self.head_dim, embed_size)

    def forward(self, values, keys, query):
        N = query.shape[0]  # batch size
        value_len, key_len, query_len = values.shape[1], keys.shape[1], query.shape[1]

        # 将 Q、K、V 分成多个头
        values = values.reshape(N, value_len, self.heads, self.head_dim)
        keys = keys.reshape(N, key_len, self.heads, self.head_dim)
        queries = query.reshape(N, query_len, self.heads, self.head_dim)

        # 计算注意力得分
        energy = torch.einsum("nqhd,nkhd->nhqk", [queries, keys]) / (self.head_dim ** (1/2))
        attention = torch.softmax(energy, dim=3)

        # 计算注意力输出
        out = torch.einsum("nhql,nlhd->nqhd", [attention, values]).reshape(
            N, query_len, self.heads * self.head_dim
        )

        # 拼接头的输出，并通过最后的线性层
        out = self.fc_out(out)
        return out

代码解析

初始化：定义了输入的维度、头数、每个头的维度，并创建了用于生成 Q、K、V 的线性层。
分割多头：将输入 Q、K、V 按头数分割，使得每个头能独立计算注意力。
计算注意力得分：通过点积计算 Q 和 K 之间的相似度，并使用 softmax 获得注意力权重。
输出计算：将每个头的权重与 V 相乘，拼接各个头的输出，最后通过线性层映射到原始维度。

测试代码

我们可以通过以下测试代码验证 MultiHeadAttention 的输出是否正常。

embed_size = 256
heads = 8
seq_len = 10
x = torch.rand((3, seq_len, embed_size))  # 假设 batch size 为 3，序列长度为 10

multihead_attention = MultiHeadAttention(embed_size, heads)
output = multihead_attention(x, x, x)
print("多头注意力输出形状：", output.shape)

你会看到输出的形状为 (3, seq_len, embed_size)，这与输入形状一致，验证了多头注意力的效果。

总结

多头注意力是对单头注意力的扩展，可以让模型从多个角度捕获输入序列中的复杂关系。
每个头独立生成 Q、K、V，并通过点积计算相似度，从而获得多样化的上下文信息。
多头注意力在自然语言处理和计算机视觉任务中广泛应用，有助于模型更全面地理解输入数据。

希望通过这篇文章的讲解与代码示例，能帮助你理解多头注意力的原理与实现。如果有任何疑问，欢迎留言讨论！

原文地址：https://blog.csdn.net/weixin_52582573/article/details/143578531

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：python 天气数据可视化
下一篇：xlsx.js 读取excel文件

Java学习，基本数据类型
System.out.println("最小值：Double.MIN_VALUE=" + Double.MIN_VALUE);System.out.println("最小
阅读更多2024-11-17
创建第一个react项目
通过以上步骤，你已经成功创建并运行了你的第一个React项目。接下来，你可以继续探索React的更多功能，编写更复杂的组件和应用程序。希望这个教程对你有所帮助！如果有任何问题，欢迎随时提问。参考资料R
阅读更多2024-11-17
从零开始的c++之旅——二叉搜索树
这与之前实现的二叉树类似，只不过用上了模板跟构造函数，因为构造函数我们在后面需要用来生成节点。K _key;:_key(key){}//这里也能体现封装思想，不管我们如何实现的类此处我们只需定义成No
阅读更多2024-11-17
c/c++内存管理
int main()// new/delete 和 malloc/free最大区别是 new/delete对于【自定义类型】除了开空间还会调用构造函数和析构函数free(p1);delete p2;/
阅读更多2024-11-17
1、PyTorch介绍与张量的创建
【代码】1、PyTorch介绍与张量的创建。
阅读更多2024-11-17
‌REST风格（Representational State Transfer）
REST风格的核心思想是将Web应用程序的功能作为资源来表示，使用统一的标识符（URI）来对这些资源进行操作，并通过HTTP协议（如GET、POST、PUT、DELETE等）来定义对这些资源的操作。‌
阅读更多2024-11-17
软件测试 —— 自动化基础
自动化是指自动的代替人的行为完成操作，自动化在生活中可以说是随处可见，如：自动洒水机、自动洗手液等，这些生活中的自动案例有效的减少了我们人力的消耗，同时也提高了我们的生活质量，在我们软件中的自动化测试
阅读更多2024-11-17
Python爬虫下载新闻，Flask展现新闻（2）
Python爬虫下载新闻和Flask展现新闻的主要技术
阅读更多2024-11-17
【CSS in Depth 2 精译_057】第九章 CSS 的模块化与作用域 + 9.1 CSS 模块的定义（上）
本篇为《CSS in Depth》全新第2版9.1小节内容的上篇，主要介绍了 CSS 模块化的产生背景及相关概念，并结合上一节层叠图层（cascade layer）的知识，通过一个简单的 messag
阅读更多2024-11-17
分布式事务seata基于docker安装和项目集成seata
分布式系统节点通过网络连接，一定会出现分区问题（P）当分区出现时,系统的一致性和可用性就无法同时满足cp-->不同节点的角色不同ap-->不同节点的角色相同。
阅读更多2024-11-17

深度学习中的多头注意力机制：原理与实现解析

4. Multi-Head Attention

深度学习中的多头注意力机制：原理与实现解析

为什么需要多头注意力？

多头注意力的工作原理

1. 生成 Q、K、V 矩阵

2. 多头注意力的计算步骤

多头注意力公式

自己实现多头注意力类

代码解析

测试代码

总结

相关文章