Transformer自注意力机制和多头注意力

🕗 发布于 2024-10-17 01:16 transformer 深度学习 人工智能

自注意力机制（Self-Attention Mechanism）：

自注意力机制是 Transformer 的核心部分，它用于计算序列中每个元素与其他所有元素的关系，从而捕捉全局依赖。

自注意力的计算过程：

假设输入序列为 X = [x_1, x_2, ..., x_n]，其中每个 x_i 都是一个向量，表示序列中的第 i 个元素。自注意力的计算包括以下几个步骤：

计算 Query、Key 和 Value：
- 对每个输入向量 x_i，通过线性变换生成三个向量：Query（查询向量）、Key（键向量）和 Value（值向量）。这些向量可以理解为不同的视角来表示输入。
- 计算公式为：
  [
  Q = XW_Q, \quad K = XW_K, \quad V = XW_V
  ]
  其中，W_Q, W_K, W_V 是可学习的权重矩阵，Q 是 Query 向量，K 是 Key 向量，V 是 Value 向量。
计算注意力得分（Attention Scores）：
- 通过 Query 和 Key 之间的点积来计算每个元素之间的相关性（注意力得分）。点积反映了 Query 和 Key 的相似性。
- 计算公式为：
  [
  \text{Attention Scores} = \frac{Q \cdot K^T}{\sqrt{d_k}}
  ]
  其中，d_k 是 Key 的维度，点积结果除以 $\sqrt{d_k}$ 是为了防止数值过大。
计算注意力权重（Attention Weights）：
- 对上一步的注意力得分进行 Softmax 操作，转化为概率分布，即注意力权重，表示当前元素对其他元素的注意力分布。
- 公式为：
  [
  \text{Attention Weights} = \text{Softmax} \left( \frac{Q \cdot K^T}{\sqrt{d_k}} \right)
  ]
加权求和得到输出：
- 最终的输出是对 Value 向量的加权求和，权重是由注意力权重确定的。
- 输出向量的公式为：
  [
  \text{Output} = \text{Attention Weights} \cdot V
  ]

通过这个过程，自注意力机制可以让每个输入元素 x_i 根据它与其他所有输入元素的关系，来动态地调整自己的表示。换句话说，每个元素都会“注意”其他元素，并根据这些注意力权重更新自身的表示。

自注意力机制的特点：

全局信息捕捉：每个元素都可以和序列中的所有其他元素交互，捕捉全局依赖关系。
动态权重：注意力权重根据输入数据动态计算，不是固定的权重。

多头自注意力机制（Multi-Head Self-Attention）：

多头自注意力机制是 Transformer 中的一种扩展，它通过并行计算多个自注意力机制来增强模型的表现力。

工作原理：

多个注意力头：
- Transformer 中会并行计算多组 Query、Key 和 Value，每组计算称为一个“注意力头”（Attention Head）。每个注意力头可以通过不同的子空间来捕捉序列中的不同信息。
- 假设有 h 个注意力头，每个头都有各自的 W_Q, W_K, W_V 权重矩阵。每个头都可以独立计算注意力分布。
并行处理：
- 每个头独立计算出一组自注意力结果（多个输出向量），这些结果将会拼接（Concat）在一起，然后通过一个线性层进行映射，形成最终的输出。
多样性和表达能力增强：
- 通过多个注意力头，每个头可以从不同的角度来关注输入序列中的不同部分，从而提高模型对复杂数据的表达能力。
- 举例来说，一个注意力头可能专注于句子中的短期依赖关系，而另一个头可能专注于更长距离的依赖。

多头自注意力的公式：

对于每个注意力头 i，其输出为：
[
\text{head}_i = \text{Attention}(QW_Q^i, KW_K^i, VW_V^i)
]
然后将所有的注意力头拼接在一起：
[
\text{MultiHead}(Q, K, V) = \text{Concat}(\text{head}_1, \dots, \text{head}_h) W_O
]
其中，W_O 是最终映射的线性层的权重矩阵。

总结：

自注意力机制 通过对输入序列中所有元素的相关性进行建模，能够有效捕捉全局依赖关系。
多头自注意力机制 则通过并行计算多个注意力头来增强模型的多样性和表达能力，使得 Transformer 在处理复杂数据时更加灵活和强大。

相较于 CNN，Transformer 更擅长处理长序列数据和全局依赖关系的建模，并且具备更强的并行处理能力和灵活性。

原文地址：https://blog.csdn.net/weixin_43251493/article/details/142993163

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：RVO C++函数返回值复制优化
下一篇：第2讲数据库系统的结构抽象与演变

【人工智能-初级】第3章 k-最近邻算法（KNN）：分类和Python实现
K-最近邻算法（K-Nearest Neighbors，简称KNN）是一种简单而有效的监督学习算法，主要用于分类和回归问题。在分类问题中，KNN算法通过计算测试样本与训练样本之间的距离，找到距离测试样
阅读更多2024-10-18
Java使用原生HttpURLConnection实现发送HTTP请求
HttpURLConnection 是 Java 提供的原生标准的用于发送 HTTP 请求和接收 HTTP 响应的一个类，它位于 java.net 包下，并继承了 URLConnection 类。Ht
阅读更多2024-10-18
React前端框架高级技巧
自定义Hooks是React 16.8引入的一个强大特性,允许你将组件逻辑提取到可重用的函数中。}, []);// 在组件中使用掌握这些React高级技巧,你将能够编写出更加高效、可维护的代码。Rea
阅读更多2024-10-18
Google Tx-LLM：用大型语言模型助力治疗药物开发
值得注意的是，Tx-LLM不仅可以结合分子信息与文本信息，还能在不同类型的治疗任务之间实现能力迁移，成为贯穿药物开发全流程的单一模型。在性能测试中，Tx-LLM在许多任务上展现了强大的数值预测能力，这
阅读更多2024-10-18
机器学习面试笔试知识点之K近邻算法(KNN)、最大期望算法(EM)
机器学习面试笔试知识点之K近邻算法(KNN)、最大期望算法(EM)
阅读更多2024-10-18
【STM32】STM32学习笔记-EXTI外部中断
外部中断（EXTI）是STM32单片机中常用的一种中断方式，它允许单片机对外部事件快速响应。本文将详细介绍如何使用STM32的EXTI外部中断，包括配置步骤和代码示例。
阅读更多2024-10-18
Spring Boot比Spring多哪些注解
需要注意的是，虽然这些注解是Spring Boot特有的，但Spring Boot本身是基于Spring框架构建的，因此它仍然支持Spring框架中的所有注解。此外，随着Spring Boot的不断发
阅读更多2024-10-18
Linux 命令 chown 和 chmod 的区别
chmod 命令可以更改文件的读（r）、写（w）和执行（x）权限，适用于文件所有者（u）、同组用户（g）、其他用户（o）以及所有用户（a）mode：新的权限模式，可以是字母和操作符的组合，如 u+rw
阅读更多2024-10-18
AWS账号的费用结构与使用指南
然而，虽然创建账号不需要费用，但使用AWS的各种服务通常是要收费的。总之，AWS账号本身是免费的，但使用AWS提供的服务通常会产生费用。了解AWS的费用结构、合理利用免费套餐以及定期监控使用情况，是确
阅读更多2024-10-18
推荐算法的学习
例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。提示：以下是本篇文章正文内容，下面案例可供参考LR的主要限制在于需要大量手动特征
阅读更多2024-10-18