论文阅读笔记-Rethinking Self-Attention for Transformer Models

🕗 发布于 2024-10-09 21:34 python

前言

Transformer自从被提出，就火到现在，它的关键在于 query-key-value 的点积注意力，token与token之间被完全连接，能够对远距离的依赖关系进行建模。Transformer在到处都是黑箱的深度学习领域，可以说一个解释性比较强的模型之一了。而作为Transformer核心的组件，Self-Attention被许多人反复研究来研究去，随处可见的资料貌似已经把它解释的很好的，但事实真的这样么？本文对自注意力机制做了一些探索，里边的结果也许会颠覆我们对自注意力的认知。

前情提要

首先我们要明白点积的几何意义，两个向量越相似，他们的点积越大，Self-Attention结构就是利用Q，K，V计算点积，Self-Attention就是计算一个向量（可以理解为一个词）与其它向量的点积，即相似性。下面给出其公式：
$Attention(Q,K,V)=softmax(\frac{QK^T}{\sqrt{d_k}})V$
注意了，完整的Self-Attention中，是对同一个 $X\in\mathbb{R}^{n\times d}$ 通过不同的投影矩阵 $W_q,W_k,W_v\in\mathbb{R}^{d\times d'}$ 得到 $Q=XW_q,K=XW_k,V=XW_v$

原文地址：https://blog.csdn.net/mohen_777/article/details/140605437

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：【每日一题 | 24.10.8】确定字符串是否是另一个的排列
下一篇：软考下午题1-数据流图

数据库表操作
自定义完整性指对某一具体关系数据库的约束条件，它反映某一具体应用所涉及的数据必须满足的语义要求。约束方法：规则、存储过程、触发器。
阅读更多2024-10-11
Matlab中实现数据共享
自定义了一个类，在类方法中需要缓存数据，以供其他方法或者实例共享数据，但是类的属性properties没有Static特性。把需要共享的数据封装在一个单独的类里。
阅读更多2024-10-11
Kind部署的K8s证书过期后的解决方案
重启可能会失败，多试几次就好了。
阅读更多2024-10-11
算法学习4
一个数组，选择其中一个数作为对照，把小于等于对照数的放在数组的左边，等于对照数的将其放在数组中间，大于对照数的放在右边；一个数组，选择其中一个数作为对照，把小于等于对照数的放在数组的左边，大于对照数的
阅读更多2024-10-11
idea2024 git merge 时丢失 Merge remote-tracking branch问题
Fast-forward 合并是导致提交丢失的常见原因。使用--no-ff选项可以强制 Git 生成合并提交。在 IntelliJ IDEA 中，你可以手动获取远程分支，通过命令行或修改 Git 配
阅读更多2024-10-11
杨中科 .netcore Linq 。一前期准备知识
调用运行结果。
阅读更多2024-10-11
掌握Razor语法：构建动态ASP.NET Core网页的基石
Razor 是 ASP.NET Core MVC 和 Razor Pages 中用于构建动态网页内容的一种模板引擎。它允许你将 HTML 标记与 C# 代码混合使用，以生成动态的网页。Razor 使得
阅读更多2024-10-11
【docker】存储之目录挂载和卷映射
这部分的内容还是挺重要的，对于我们防止数据的丢失有很大的帮助，最主要的就是两个命令的理解以及使用，大家下来自己在dcoker上敲敲命令即可！
阅读更多2024-10-11
春日技术解惑：Spring Boot课程答疑
所以产品在上线前必须反复测试，经过反复测试，修改，再测试，再修改，产品才能够不断完善。在整个系统测试中，根据需求文档和设计文档，逐一对功能进行检测并写好测试用例，有效避免残片缺陷，因为产品出现缺陷不仅
阅读更多2024-10-11
【JS】连续赋值考题
【JS】连续赋值考题
阅读更多2024-10-11

论文阅读笔记-Rethinking Self-Attention for Transformer Models

前言

前情提要

相关文章