自学内容网 自学内容网

论文阅读笔记-Rethinking Self-Attention for Transformer Models

前言

Transformer自从被提出,就火到现在,它的关键在于 query-key-value 的点积注意力,token与token之间被完全连接,能够对远距离的依赖关系进行建模。Transformer在到处都是黑箱的深度学习领域,可以说一个解释性比较强的模型之一了。而作为Transformer核心的组件,Self-Attention被许多人反复研究来研究去,随处可见的资料貌似已经把它解释的很好的,但事实真的这样么?本文对自注意力机制做了一些探索,里边的结果也许会颠覆我们对自注意力的认知。

前情提要

首先我们要明白点积的几何意义,两个向量越相似,他们的点积越大,Self-Attention结构就是利用Q,K,V计算点积,Self-Attention就是计算一个向量(可以理解为一个词)与其它向量的点积,即相似性。下面给出其公式:
A t t e n t i o n ( Q , K , V ) = s o f t m a x ( Q K T d k ) V Attention(Q,K,V)=softmax(\frac{QK^T}{\sqrt{d_k}})V Attention(Q,K,V)=softmax(dk QKT)V
注意了,完整的Self-Attention中,是对同一个 X ∈ R n × d X\in\mathbb{R}^{n\times d} XRn×d 通过不同的投影矩阵 W q , W k , W v ∈ R d × d ′ W_q,W_k,W_v\in\mathbb{R}^{d\times d'} Wq,Wk,WvRd×d得到 Q = X W q , K = X W k , V = X W v Q=XW_q,K=XW_k,V=XW_v Q=XWq,K=XWk,


原文地址:https://blog.csdn.net/mohen_777/article/details/140605437

免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!