【机器学习】21. Transformer: 最通俗易懂讲解

🕗 发布于 2024-11-07 20:35 机器学习 人工智能 矩阵数据挖掘神经网络

1. 结构：Encoder and Decoeder

Encoder Component：结构相同的编码器堆栈
- Self-attention Layer: 帮助查看输入句子中的其他单词，因为它编码了一个特定的单词。
Decoding component: 由相同数量的编码器组成的一组解码器。
- Encoder-decoder attention layer:帮助将注意力集中在输入句子的相关部分

2. Encoder 第一个输入的embedding

和传统的NLP网络一样，文本数据都是通过embedding转换成向量进行操作
在这里插入图片描述

3. self-attention 层

假设输入是这个句子，自注意力机制能够帮助it连接到animal
“The animal didn’t cross the street because it was too tried.”
在这里插入图片描述

self-attention 实现

给每行一个encoder的输入向量，创建 query 向量，key向量，value向量
通过将embedding乘以我们在训练过程中训练的三个矩阵得到，Q,K,V矩阵
三个矩阵是什么？是右侧的W(Q),W(K)和W(V)
Q * K计算分数
取Q向量与我们要评分的单词的K向量的点积 Q*K
除以8
为什么是8？作者是这么做的。64是key vector的大小，因为embedding是512，把key vector取了64，开平方得到了8.
softmax得到概率

这些分数决定了编码当前位置的词, 即Thinking的时候, 对所有位置的词分别有多少的注意力. 很明显, 在上图的例子中, 当前位置的词Thinking对自己有最高的注意力0.88
value * softmax的结果
保留我们想要关注的单词的价值，并淹没不相关的单词。
把最后加权过的V向量相加
在这个位置产生自注意层的输出（对于第一个单词）

4. 多头机制

在这里插入图片描述

一个embedding有多个输出。

因为前馈神经网络接受的是1个矩阵(每个词的一个向量), 所以我们需要有一种方法把10个矩阵整合为一个矩阵
在这里插入图片描述
输出左右拼接，再有一个W向量，二者相乘得到最终结果向量。

回顾之前翻译的案例，可以得到一个注意头是animal，另一个是tire

5. Position Encoding(和embedding相加)

前面的embedding并没有位置信息
Position Encoding

提供嵌入向量之间有意义的距离，一旦投影到Q/K/V向量。
确定每个单词的位置。

在这里插入图片描述

最后相加的结果传递给self-attention层

6. Residuals

跟ResNet的操作一样，输入和输出相加作为下一层的输入
在这里插入图片描述

7. Decoder

顶部编码器的输出被转化为一组注意力向量K和V

用于“编码器-解码器注意”层解码器。
关注输入序列中的适当位置

每一步的输出在下一个时间步中被馈入底层解码器。
在这里插入图片描述

8. 最后的Linear and Softmax layer

在这里插入图片描述
假设我们的模型认识5000个唯一的英文单词, 那么logits向量的维度就是5000，跟其他神经网络一样，这里是概率。

9. 训练概述

首先，真实的标签会用one-hot转换成向量。
之后使用损失函数
该模型为每个单词生成一个的概率。

使用反向传播使输出更接近实际输出。
比较两种概率分布：
- Cross-Entropy
- Kullback-Leiber Divergence

10. 选择Transformer的理由

优点：
更好的远程连接
更容易并行化
在实践中，可以使其比RNN更深（层次更多）
缺点:
注意力计算在技术上是O(n^2) 【n是最长的句子】
实现起来有点复杂（位置编码等）

优点似乎远远大于缺点，transformer在许多情况下比rnn和LSTMs工作得更好
可以说是过去十年中最重要的序列建模改进之一。

原文地址：https://blog.csdn.net/weixin_48846514/article/details/143435294

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：细胞图谱篇（IF=14.3）|人类卵巢单细胞图谱揭示巨噬细胞在卵巢衰老中的作用
下一篇：C++ Qt6 QtQuick/QML入门进阶与项目实战视频教程

单细胞 RNA 测序分析的当前最佳实践：教程-文献精读80
单细胞分析最佳指南！
阅读更多2024-11-09
手机如何打开chm文件
如何在手机端打开chm帮助手册文件呢
阅读更多2024-11-09
如何评估焊机测试负载均衡性能
评估焊机测试负载均衡性能需要综合考虑多种因素，选择合适的测试方法、设定合理的测试参数、选择合适的负载均衡策略，并对测试数据进行监测和分析。
阅读更多2024-11-09
小记-如何快速调整图片的分辨率
首先我们先明确一些概念，避免被网上形形色色的软件和所谓的“经验教程”所迷惑，有好的经验，但很多时候更多的是质量差的经验，甚至是广告，文章都是抄，抄的还不对，迷惑了广大网友。像素（Pixel）: 图像
阅读更多2024-11-09
PointMamba: A Simple State Space Model for Point Cloud Analysis——点云论文阅读（10）
点云论文阅读笔记，总结论文思路。PointMamba: A Simple State Space Model for Point Cloud Analysis
阅读更多2024-11-09
class com.alibaba.fastjson2.JSONObject cannot be cast to class com.ruoyi.sys
@type导致，无法转换为 LoginUser 对象。系统监控→在线用户打开后报错。
阅读更多2024-11-09
EasyPlayer.js网页播放器,支持FLV、HLS、WebSocket、WebRTC、H.264/H.265、MP4、ts各种音视频流播放
9、同时支持http-flv和websocket-flv协议以及websocket-raw私有协议（裸数据，传输量更小，需要搭配Monibuca服务器）1、支持解码H.264视频(Baseline,
阅读更多2024-11-09
深度学习：bert模型
深度学习：bert模型
阅读更多2024-11-09
RESTful API——构建现代Web服务的基石
RESTful API又叫REST API，是基于REST构建的API。RESTful API 可以让你看到 URL+Http Method 就知道这个 URL 是干什么的，让你看到了 HTTP 状态
阅读更多2024-11-09
数据结构之二叉树的链式结构——递归的暴力美学
数据结构二叉树链式结构的实现，遍历规则，和递归思想
阅读更多2024-11-09