self-attention机制详解

🕗 发布于 2024-01-09 06:39 python

目前，对于我们的network，给定的input大都是一个向量：
在这里插入图片描述
但是对于更复杂的情况，我们的input是a set of vec:

举例：
nlp中的句子，对于每个word都是一个word embedding：
在这里插入图片描述
图学习中每个节点有一个embedding：
那我们的output都是什么样子呢？
第一种：输入与输出数量相同，每个embedding都有一个label（sequence labeling）：

第二种：整个输入有一个label：
第三种：model自己决定有多少长度的输出(seq2seq)：
在这里插入图片描述
对于第一种问题，假设我们要进行的是预测词性的任务，即：
只用每个word embedding加一个fc是不行的，model无法对第二个和第四个saw预测出不同的词性，那么我们就需要consider the context，这就是self-attention的作用：
在这里插入图片描述经过self-attention后生成的新的word enbedding就包含了整个context的信息，也可以使用多个attention层叠加：
最出名的一篇文章：Attention is all you need，在这篇文章里谷歌提出了Transformer，这个后面再谈，我们先来看看attention的运作方式。
实现对整个context的关注，最简单的想法就是把他们全连接起来：
在这里插入图片描述但是，对于a1生成b1来说，我们不能直接融合所有的embedding，我们的模型应该可以找到a这一层其他的向量哪些对a1是相关的、重要的，可以帮助判断a1类型的embedding，那么，对a1和每一个em的相关性，用一个α表示：
在这里插入图片描述那么我们的attention模型，就需要可以计算出每两个向量之间的α，常用的方法：
Dot-product是目前最常用的方法，也是transformer中的方法，那么在attention中就是这样的：
如图计算a1与所有向量的α，用的都是Dot-product的方法，再过一层softmax，生成a1对每个向量的注意力。
得到α后，我们已经知道a1和哪些向量是最有关联性性的，那么下一步就是根据α抽取信息，即：
在这里插入图片描述最终得到b1，就是融合了attention信息的新的表示，对于每一个向量我们都进行同样的操作，这个操作是同时进行的。
公式推导有空再写。
笔记整理自台大李宏毅自注意力机制和Transformer详解

原文地址：https://blog.csdn.net/zly_Always_be/article/details/135454959

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：Go语言中的秘密武器：魔力般的Map数据结构解密
下一篇：基于多反应堆的高并发服务器【C/C++/Reactor】（中）HttpRequest模块解析http请求协议

HTTPS协议简单介绍
HTTPS协议简单介绍
阅读更多2024-10-05
C语言日志类库 zlog 使用指南（第一章什么是 zlog）
基于类库的指南进行的梳理，通览C语言的日志类库zlog，补充额外的知识，旨在促使读者能快速理解和掌握使用。初发内容共7章。
阅读更多2024-10-05
mount: wrong fs type, bad option, bad superblock on x.x.x.x:/mnt/nfs-dir
原因是客户端没有安装相应的 NFS 软件包，系统不支持 NFS 文件系统类型，所以 `mount` 挂载的时候会失败，安装 NFS 软件包即可。
阅读更多2024-10-05
Maven超详细教程(三)：Maven依赖查找顺序
在Maven的项目管理中，依赖管理是非常核心的一个功能。Maven通过pom.xml文件来管理项目的依赖，并自动处理依赖的下载、解析和冲突等问题。理解Maven的依赖查找顺序对于解决依赖冲突、优化项目
阅读更多2024-10-05
电器自动化入门08：隔离变压器、行程开关介绍及选型
3.4 电工知识：三相交流异步电动机自动往返行程控制及控制变压器选型_哔哩哔哩_bilibili。2.行程开关（限位开关）1.隔离（控制）变压器。
阅读更多2024-10-05
linux 网络序
在将ip字符串转网络序存储时。根据整形二进制显示判断。
阅读更多2024-10-05
【网络安全 | 渗透工具】自动化 .env/.git文件检测
接下来，只需打开目标应用程序。如果该应用程序包含任何 .env / .git 目录，将会弹出提示消息
阅读更多2024-10-05
基于Zynq SDIO WiFi移植三(支持2.4/5G)
1 手机连接需要三次，三次都需要输入密码；2 平板连接需要三次，三次都需要输入密码；3 电脑连接需要一次，无感；
阅读更多2024-10-05
Java | Leetcode Java题解之第454题四数相加II
Java | Leetcode Java题解之第454题四数相加II
阅读更多2024-10-05
【Python】Daphne：Django 异步服务的桥梁
Daphne 是 Django Channels 项目的一部分，专门用于为 Django 提供支持 HTTP、WebSocket、HTTP2 和 ASGI 协议的异步服务器。Daphne 是一个开源的
阅读更多2024-10-05

self-attention机制详解

相关文章