论文阅读笔记-Self-Attention

🕗 发布于 2024-10-10 08:41 python

前言

Self-Attention能够将每个元素和当前时刻元素进行比较来确定上下文元素的重要性，这也使得它在NLP模型中表现优异。而本篇文章则是将卷积结构与Self-Attention结构进行了比较，通过实验证明了这样的卷积结构同样有着高效的计算和足以和Self-Attention媲美的效果。本篇文章所述的卷积结构是基于non-separable convolutions和depthwise separable convolutions，不清楚深度可分离卷积的小伙伴可以参考这篇文章：深度可分离卷积

在这里插入图片描述

Self-Attention被定义为基于内容的表示，如上图a中所示，其中通过将当前时刻与上下文中的所有元素进行比较来计算注意力权重，这种不受上下文大小限制的计算比较能力，也被视为Self-Attention的核心能力。当然，这种能力也是需要付出代价的，就是计算复杂度是输入长度的二次方，这也使得在相对较长的文本中进行计算成本变得非常的高。

Dynamic convolutions基于lightweight convolutions 构建的，其每个时刻预测不同的卷积核，也就是说卷积核只学习当前时间步的相关信息，而不是学习全局信息。动态卷积在轻量卷积的基础之上，增加了一个可学习的参数单元来影响时间步的权重，这有点类似于局部Attention，只不过相较来说没有考虑前一时刻的权重信息。

结构细节

这篇文章对几种卷积的关联进行了可视化的阐述。
在这里插入图片描述
其中的GLU结构可以参考这篇文章。LConv(LightConv)就是基于DepthwiseConv进行计算得到的，如序列中的第 $i$ 个元素和输出通道 $c$ 公式推导如下：
$\sum_{j=1}^k W_{c,j} \cdot X_{(i+j-\lceil \frac{k+1}{2} \rceil),c}$

原文地址：https://blog.csdn.net/mohen_777/article/details/140605404

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

搬砖11、Python 文件和异常
上对这两个概念是这样解释的：“序列化（serialization）在计算机科学的数据处理中，是指将数据结构或对象状态转换为可以存储或传输的形式，这样在需要的时候能够恢复到原先的状态，而且通过序列化的数
阅读更多2024-10-11
人工智能时代，程序员如何保持核心竞争力
总之，程序员在AI时代要保持核心竞争力，既要专注于专业技能的提升，也要适应技术变革，发展AI无法轻易替代的软技能。通过不断学习、创新和适应，程序员不仅能够在AI时代站稳脚跟，还能成为推动技术进步的重要
阅读更多2024-10-11
【计算机网络 - 基础问题】每日 3 题（三十五）
📚专栏简介：在这个专栏中，我将会分享 C++ 面试中常见的面试题给大家~📝推荐参考地址：https://www.xiaolincoding.com/（这个大佬的专栏非常有用！
阅读更多2024-10-11
JAVA学习-练习试用Java实现“二叉树的层序遍历”
上述代码中，定义了一个'levelOrder'方法，使用队列实现二叉树的层序遍历。首先将根节点加入队列，然后进入循环，每次取出队列头部的节点，并将其值加入当前层的列表中。接着将其左右子节点加入队列，直
阅读更多2024-10-11
JVM学习笔记
在学习JVM时的笔记，主要来源于狂神说
阅读更多2024-10-11
FreeSWITCH 分机网关路由
分机网关路由应该来自 FusionPBX。可以参考下面这个 api。
阅读更多2024-10-11
从零开始学cv-18：opencv视频处理
随着科技的飞速发展，计算机视觉技术在我们的日常生活中扮演着越来越重要的角色。在众多计算机视觉库中，OpenCV凭借其开源、跨平台、功能强大等特点，成为了许多开发者和研究者的首选工具。本次博客将带领大家
阅读更多2024-10-11
C++多态
欢迎来到本期节目- - -C++多态fill:#333;color:#333;color:#333;fill:none;DogSheepmousetalk汪汪咩咩吱吱。
阅读更多2024-10-11
华为云应用侧Android测试APP
华为云设备接入IoTDA应用侧开发Android测试APP
阅读更多2024-10-11
毕设分享大数据用户画像分析系统(源码分享)
Hi，大家好，这里是丹成学长，今天做一个电商销售预测分析，这只是一个demo，尝试对电影数据进行分析，并可视化系统🔥 这两年开始毕业设计和毕业答辩的要求和难度不断提升，传统的毕设题目缺少创新和亮点，往
阅读更多2024-10-11

论文阅读笔记-Self-Attention

前言

结构细节

相关文章