Transformer的Decoder的输入输出都是什么

🕗 发布于 2024-04-20 13:20 transformer 深度学习 人工智能

1 疑问：Transformer的Decoder的输入输出都是什么

2 推理时Transformer的Decoder的输入输出

2.1 推理过程中的Decoder输入输出

2.2 整体右移一位

3 训练时Decoder的输入

参考文献：

1 疑问：Transformer的Decoder的输入输出都是什么

几乎所有介绍transformer的文章中都有下面这个图

但是，右下角这里为什么把outputs给输入进去了，还有为什么有个shifted right，在网上看了下一些资料，简单整理一下，以后自己忘了就翻一下这篇博客笔记。

2 推理时Transformer的Decoder的输入输出

2.1 推理过程中的Decoder输入输出

假如是一个翻译过程，要将我爱你中国翻译成I love China.

输入：我爱中国
输出： I Love China

具体decoder的执行步骤是：

Time Step 1

- 初始输入：起始符</s> + Positional Encoding（位置编码）
- 中间输入：（我爱中国）Encoder Embedding
- 最终输出：产生预测“I”

Time Step 2

- 初始输入：起始符</s> + “I”+ Positonal Encoding
- 中间输入：（我爱中国）Encoder Embedding
- 最终输出：产生预测“Love”

Time Step 3

- 初始输入：起始符</s> + “I”+ “Love”+ Positonal Encoding
- 中间输入：（我爱中国）Encoder Embedding
- 最终输出：产生预测“China”

2.2 整体右移一位

在图片的右下角可以看到有个shitfed right，对Outputs有Shifted Right操作。

Shifted Right 实质上是给输出添加起始符/结束符，方便预测第一个Token/结束预测过程。

正常的输出序列位置关系如下：

0-"I"
1-"Love"
2-"China"

但在执行的过程中，我们在初始输出中添加了起始符</s>，相当于将输出整体右移一位（Shifted Right），所以输出序列变成如下情况：

0-</s>【起始符】
1-“I”
2-“Love”
3-“China”

这样我们就可以通过起始符</s>预测“I”，也就是通过起始符预测实际的第一个输出。

3 训练时Decoder的输入

训练时由于知道所有的输出，所以不需要等t-1个单词预测完了之后才去预测t个单词，训练时候是并行的，

训练时，decoder的并行计算是指翻译第i+1个单词无需等待第i个单词的输出，因为训练时知道所有训练数输入数据的真实标签值，无需等待，可并行运算。
比如，翻译: 我有一只猫 ==> I have a cat
decoder input: Encoder input(我有一只猫) + start [---I have a cat /end--- masked]
output ==> I
decoder input: Encoder input(我有一只猫) + start I [---have a cat /end--- masked]
output ==> have
decoder input: Encoder input(我有一只猫) + start I have[---a cat /end--- masked]
output ==> a
decoder input: Encoder input(我有一只猫) + start I have a[---cat /end--- masked]
output ==> cat
decoder input: Encoder input(我有一只猫) + start I have a cat[---/end--- masked]
output ==> end
上述训练数据的decoder过程可并行计算

参考文献：

哪位大神讲解一下Transformer的Decoder的输入输出都是什么？能解释一下每个部分都是什么? - 知乎

NLP Transformer的Decoder的输入输出都是什么？每个部分都是什么? NLP中的encoder和decoder的输入是什么？_transformer decoder的输入-CSDN博客

自然语言处理Transformer模型最详细讲解（图解版）-阿里云开发者社区

简单之美 | Transformer 模型架构详解

GPT中的Transformer架构以及Transformer 中的注意力机制-CSDN博客

The Illustrated Transformer【译】-CSDN博客

Transformer模型详解（图解最完整版） - 知乎

原文地址：https://blog.csdn.net/u013171226/article/details/137685791

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：机器学习总结
下一篇：设计模式(019)行为型之状态模式

学生公寓管理系统
由于某些特殊原因，需要对学生当前入住的床位进行修改时，使用此功能。新生开学后，宿管管理可以先根据学生所在系查询该专业预定的宿舍和具体的床位入住状态信息，为该学生分配一个空闲状态的床位，并修改当前床位状
阅读更多2024-11-15
Windows上安装RabbitMQ 4.0.3教程
通过上述步骤，你应该已经成功在Windows上安装了RabbitMQ 4.0.3，并启用了管理插件。现在，你可以开始使用RabbitMQ来构建你的分布式系统了。希望这篇教程对你有所帮助，如果有任何问题
阅读更多2024-11-15
【蓝桥等考C++真题】蓝桥杯等级考试C++组第13级L13真题原题(含答案)-成绩排序
C++L13 成绩排序(50 分)
阅读更多2024-11-15
Web入门
HTTP（HyperText Transfer Protocol，超文本传输协议）是一种应用层协议。主要用于在Web浏览器和服务器之间传输数据。基于TCP协议：面向连接，确保了数据传输的可靠性和顺序。
阅读更多2024-11-15
Android 最新的AndroidStudio引入依赖失败如何解决？如:Failed to resolve:xxxx
在引入依赖时报错：Failed to resolve: xxx.xxxx:1.1.0。
阅读更多2024-11-15
力扣113：路径总和II
力扣113：路径总和II。C语言
阅读更多2024-11-15
【springboot使用sqlite数据库】Java后台同时使用mysql、sqlite
根据业务的需要，老版程序使用的数据库是sqlite，版本升级成前后台分离模式，因此需要兼容mysql与sqlite数据库同时使用。
阅读更多2024-11-15
力扣.15 三数之和 three-sum
这道题作为 leetcode 的第 15 道题，看起来似曾相识。大概思路可以有下面几种：暴力解法数组排序+二分Hash 优化双指针。
阅读更多2024-11-15
力扣第 53 题：最大子数组和
题目给定一个整数数组nums，目标是找到和最大的连续子数组（最少包含一个元素），并返回其和。例如，在数组中，和最大的子数组为，其和为6。
阅读更多2024-11-15
linux-缓冲区
调用系统调用接口是需要时间成本的，如果使用缓冲区，存储的字符串到一定长度再调用系统调用，能够有效减少调用系统调用的次数。这个缓冲区是语言设置的，缓冲区满足条件就用系统调用接口write将缓冲区的内容刷
阅读更多2024-11-15

Transformer的Decoder的输入输出都是什么

1 疑问：Transformer的Decoder的输入输出都是什么

2 推理时Transformer的Decoder的输入输出

2.1 推理过程中的Decoder输入输出

2.2 整体右移一位

3 训练时Decoder的输入

参考文献：

相关文章