自学内容网 自学内容网

论文阅读笔记-Self-Attention

前言

Self-Attention能够将每个元素和当前时刻元素进行比较来确定上下文元素的重要性,这也使得它在NLP模型中表现优异。而本篇文章则是将卷积结构与Self-Attention结构进行了比较,通过 实验证明了这样的卷积结构同样有着高效的计算和足以和Self-Attention媲美的效果。本篇文章所述的卷积结构是基于non-separable convolutions和depthwise separable convolutions,不清楚深度可分离卷积的小伙伴可以参考这篇文章:深度可分离卷积

在这里插入图片描述

Self-Attention被定义为基于内容的表示,如上图a中所示,其中通过将当前时刻与上下文中的所有元素进行比较来计算注意力权重,这种不受上下文大小限制的计算比较能力,也被视为Self-Attention的核心能力。当然,这种能力也是需要付出代价的,就是计算复杂度是输入长度的二次方,这也使得在相对较长的文本中进行计算成本变得非常的高。

Dynamic convolutions基于lightweight convolutions 构建的,其每个时刻预测不同的卷积核,也就是说卷积核只学习当前时间步的相关信息,而不是学习全局信息。动态卷积在轻量卷积的基础之上,增加了一个可学习的参数单元来影响时间步的权重,这有点类似于局部Attention,只不过相较来说没有考虑前一时刻的权重信息。

结构细节

这篇文章对几种卷积的关联进行了可视化的阐述。
在这里插入图片描述
其中的GLU结构可以参考这篇文章。LConv(LightConv)就是基于DepthwiseConv进行计算得到的,如序列中的第 i i i 个元素和输出通道 c c c 公式推导如下:
D e p t h w i s e C o n v ( X , W , i , c ) = ∑ j = 1 k W c , j ⋅ X ( i + j − ⌈ k + 1 2 ⌉ ) , c DepthwiseConv(X, W, i, c) = \sum_{j=1}^k W_{c,j} \cdot X_{(i+j-\lceil \frac{k+1}{2} \rceil),c} DepthwiseConv(X,W,i,c)=j=1kWc,jX(i+j2k+1),c
L i g h t C o n v ( X , W ⌈ c H d ⌉ , : , i , c ) = D e p t h w i s e C o n v ( X , s o f t m a x ( W ⌈ c H d ⌉


原文地址:https://blog.csdn.net/mohen_777/article/details/140605404

免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!