深度学习：transpose_qkv()与transpose_output()

🕗 发布于 2024-11-18 22:17 深度学习 人工智能

transpose_qkv 函数的主要作用是将输入的张量重新排列，使其适合多头注意力的计算。具体来说，它将输入张量的形状从 (batch_size, seq_len, num_hiddens) 转换为 (batch_size * num_heads, seq_len, num_hiddens // num_heads)

详细步骤

输入形状
假设输入的张量形状为 (batch_size, seq_len, num_hiddens)，其中：
batch_size 是批次大小。
seq_len 是序列长度。
num_hiddens 是隐藏层的维度。
拆分多头
多头注意力机制将 num_hiddens 维度拆分成 num_heads 个头，每个头的维度为 num_hiddens // num_heads。
重新排列
通过重新排列张量的维度，将 (batch_size, seq_len, num_hiddens) 转换为 (batch_size * num_heads, seq_len, num_hiddens // num_heads)。

具体实现

假设 transpose_qkv 函数的实现如下：

def transpose_qkv(X, num_heads):
    # X: (batch_size, seq_len, num_hiddens)
    batch_size, seq_len, num_hiddens = X.shape
    num_hiddens_per_head = num_hiddens // num_heads
    
    # 将 num_hiddens 维度拆分成 num_heads 个头
    X = X.reshape(batch_size, seq_len, num_heads, num_hiddens_per_head)
    
    # 交换维度，使得每个头的数据连续排列
    X = X.permute(0, 2, 1, 3)  # (batch_size, num_heads, seq_len, num_hiddens_per_head)
    
    # 将 batch_size 和 num_heads 合并
    X = X.reshape(batch_size * num_heads, seq_len, num_hiddens_per_head)
    
    return X

解释
1. 拆分维度：
  X.reshape(batch_size, seq_len, num_heads, num_hiddens_per_head)：
  将 num_hiddens 维度拆分成 num_heads 个头，每个头的维度为 num_hiddens_per_head。
  此时，X 的形状为 (batch_size, seq_len, num_heads, num_hiddens_per_head)。
2. 交换维度：
  X.permute(0, 2, 1, 3)：
  将 num_heads 维度移到第二个位置，使得每个头的数据连续排列。
  此时，X 的形状为 (batch_size, num_heads, seq_len, num_hiddens_per_head)。
3. 合并维度：
  X.reshape(batch_size * num_heads, seq_len, num_hiddens_per_head)：
  将 batch_size 和 num_heads 合并，使得每个头的数据连续排列。
  此时，X 的形状为 (batch_size * num_heads, seq_len, num_hiddens_per_head)。

总结

transpose_qkv 函数通过以下步骤将输入张量重新排列，使其适合多头注意力的计算：

将 num_hiddens 维度拆分成 num_heads 个头。
交换维度，使得每个头的数据连续排列。
合并 batch_size 和 num_heads 维度，使得每个头的数据连续排列。

最终，transpose_qkv 函数返回形状为 (batch_size * num_heads, seq_len, num_hiddens // num_heads) 的张量，以便进行多头注意力计算。

transpose_output 函数的主要作用是将多头注意力的输出重新排列，使其适合后续的处理。具体来说，它将输入张量的形状从 (batch_size * num_heads, seq_len, num_hiddens // num_heads) 转换为 (batch_size, seq_len, num_hiddens)

具体实现

假设 transpose_output 函数的实现如下：

def transpose_output(X, num_heads):
    # X: (batch_size * num_heads, seq_len, num_hiddens_per_head)
    batch_size_times_num_heads, seq_len, num_hiddens_per_head = X.shape
    batch_size = batch_size_times_num_heads // num_heads
    
    # 将 batch_size 和 num_heads 拆分
    X = X.reshape(batch_size, num_heads, seq_len, num_hiddens_per_head)
    
    # 交换维度，使得每个头的数据连续排列
    X = X.permute(0, 2, 1, 3)  # (batch_size, seq_len, num_heads, num_hiddens_per_head)
    
    # 将 num_heads 和 num_hiddens_per_head 合并
    X = X.reshape(batch_size, seq_len, num_heads * num_hiddens_per_head)
    
    return X

解释
1. 拆分维度：
  X.reshape(batch_size, num_heads, seq_len, num_hiddens_per_head)：
  将 batch_size * num_heads 维度拆分成 batch_size 和 num_heads。
  此时，X 的形状为 (batch_size, num_heads, seq_len, num_hiddens_per_head)。
2. 交换维度：
  X.permute(0, 2, 1, 3)：
  将 seq_len 维度移到第二个位置，使得每个头的数据连续排列。
  此时，X 的形状为 (batch_size, seq_len, num_heads, num_hiddens_per_head)。
3. 合并维度：
  X.reshape(batch_size, seq_len, num_heads * num_hiddens_per_head)：
  将 num_heads 和 num_hiddens_per_head 合并，使得每个头的数据连续排列。
  此时，X 的形状为 (batch_size, seq_len, num_hiddens)。

总结

transpose_output 函数通过以下步骤将多头注意力的输出重新排列，使其适合后续的处理：

将 batch_size * num_heads 维度拆分成 batch_size 和 num_heads。
交换维度，使得每个头的数据连续排列。
合并 num_heads 和 num_hiddens_per_head 维度，使得每个头的数据连续排列。

最终，transpose_output 函数返回形状为 (batch_size, seq_len, num_hiddens) 的张量，以便进行后续的处理。

原文地址：https://blog.csdn.net/m0_49786943/article/details/143791237

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：Redis GEO 功能解析
下一篇：C/C++学习-常量指针&指针常量

推荐系统与大模型
目前大模型在推荐系统取得巨大进展的同时也上主要一些的问题。主要有以下三点。1. Position Bias.在推荐系统的生成语言建模范式中，用户行为序列和推荐候选序列等各种信息以文本序列描述的形式输入
阅读更多2024-11-19
element-ui】使用el_upload上传文件无法动态修改action
问题：最近在使用el_upload上传文件时，发现无法动态修改action的值，进行提交时，caseId2还是默认值null。原因：el-upload的先执行上传，后执行action里的响应，也就是赋
阅读更多2024-11-19
JavaScript 如何获取本机IP地址
获取本机IP地址是前端工程师经常需要处理的问题。JavaScript 有几种方法可以获取客户端的IP地址。下面是三种获取本机IP的方法。
阅读更多2024-11-19
如何用 JavaScript 复制到剪贴板
以上就是几种在 JavaScript 中实现文本复制到剪贴板的方法。随着技术的发展，建议尽量使用最新的异步剪贴板 API，但为了兼容性，可以结合使用方法。希望本文能够帮助你更好地理解和应用这些 API
阅读更多2024-11-19
【第29章】MyBatis-Plus之分页插件
的分页插件提供了强大的分页功能，支持多种数据库，使得分页查询变得简单高效。属性名类型默认值描述overflowbooleanfalse溢出总页数后是否进行处理maxLimitLong单页分页条数限制d
阅读更多2024-11-19
weixin-java-miniapp 微信小程序登陆
1. 用户在小程序中选择使用微信授权登录功能。2. 小程序调用 `` 接口，向发起登录请求。3. 微信服务器验证小程序的合法性，如果合法，会返回一个。4. 小程序。5. 后台服务器接收到 **code
阅读更多2024-11-19
都2023年了，Servlet还有必要学习吗？一文带你快速了解Servlet
不得不说，Servlet 确实是一门古老的技术了，现在很少有公司直接使用 Servlet 来写项目了，大家都在用 SpringMVC-Spring-MyBatis / SpringBoot 做开发了，
阅读更多2024-11-19
掌握Java中集合的交集与并集操作
本文还有配套的精品资源，点击获取简介：集合操作是编程中的基础任务，涉及找出多个集合的共有元素（交集）和所有不同元素的总和（并集）。本文介绍如何在Java中利用 HashSet 和 St
阅读更多2024-11-19
Java 环境配置——Java 语言的安装、配置、编译与运行
正确配置 Java 开发环境是进行 Java 开发的第一步。通过本文的详细介绍，读者应能够在不同操作系统上安装和配置 JDK，并熟练编写、编译和运行 Java 程序。随着技术的发展，Java 生态系统
阅读更多2024-11-19
java 配置多数据源
mysql和clickhouse多数据源配置。
阅读更多2024-11-19

深度学习：transpose_qkv()与transpose_output()

详细步骤

具体实现

总结

具体实现

总结

相关文章