Transformer中Decoder的计算过程及各部分维度变化

🕗 发布于 2024-07-17 21:05 人工智能 transformer

在Transformer模型中，解码器的计算过程涉及多个步骤，主要包括自注意力机制、编码器-解码器注意力和前馈神经网络。以下是解码器的详细计算过程及数据维度变化：

1. 输入嵌入和位置编码

解码器的输入首先经过嵌入层和位置编码：
$\text{Input}_d = \text{Embedding}(x) + \text{PositionEncoding}(x)$

维度变化： $x$ : 输入序列的标记，维度为 $n, d_{model})$ $\text{Embedding}(x)$ : 输出维度为 $n, d_{model})$ $\text{PositionEncoding}(x)$ : 输出维度为 $n, d_{model})$

2. 自注意力机制

自注意力机制计算如下：
$\text{Input}_d W_Q, \quad K = \text{Input}_d W_K, \quad V = \text{Input}_d W_V$

这里 $W_Q, W_K, W_V$ 是参数矩阵，维度为 $d_{model}, d_k)$ ，假设 $d_k = d_{model}$ 。
维度变化： $Q, K, V$ : 输出维度为 $n, d_k)$
自注意力的计算为：
$\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}} + M\right)V$
维度变化： $QK^T$ : 维度为 $(n, n)$ $\text{softmax}$ : 结果维度为 $(n, n)$ 最终输出的维度为 $n, d_v)$ （假设 $d_v = d_{model}$ ）。

3. 残差连接与层归一化

自注意力的输出与输入相加，然后进行层归一化：
$\text{Output}_d^{(l)} = \text{LayerNorm}(\text{Attention} + \text{Input}_d)$

维度变化：维度保持为 $n, d_{model})$ 。

4. 编码器-解码器注意力

接下来，解码器会对编码器的输出进行注意力计算：
$\text{Output}_d^{(l)} W_Q', \quad K' = \text{EncoderOutput} W_K', \quad V' = \text{EncoderOutput} W_V'$

这里 $W_Q', W_K', W_V'$ 的维度也是 $d_{model}, d_k)$ 。
编码器输出的维度为 $T_e, d_{model})$ 。
注意力计算为：
$\text{Attention}(Q', K', V') = \text{softmax}\left(\frac{Q'K'^T}{\sqrt{d_k}}\right)V'$
维度变化： $Q'K'^T$ : 维度为 $n, T_e)$ 最终输出的维度为 $n, d_v)$ 。
然后与自注意力的输出进行残差连接和层归一化：
$\text{Output}_d^{(l)} = \text{LayerNorm}(\text{EncoderDecoderAttention} + \text{Output}_d^{(l)})$

5. 前馈神经网络

接下来是前馈神经网络的处理：
$\text{FFN}(x) = \text{ReLU}(xW_1 + b_1)W_2 + b_2$

$W_1$ 维度为 $d_{model}, d_{ff})$ ， $W_2$ 维度为 $d_{ff}, d_{model})$ ，其中 $d_{ff}$ 是前馈层的隐藏单元数。
维度变化：输入维度为 $n, d_{model})$ 输出维度为 $n, d_{model})$ 。

6. 最终输出

在最后一步，再次进行残差连接和层归一化：
$\text{Output}_d^{(l)} = \text{LayerNorm}(\text{FFN} + \text{Output}_d^{(l)})$
接下来，解码器的最终输出通过线性层和Softmax层生成词汇表的概率分布：
$\text{Logits} = \text{Output}_d^{(l)} W_{out} + b_{out}$
$\text{Probabilities} = \text{softmax}(\text{Logits})$

维度变化： $W_{out}$ 维度为 $d_{model}, V)$ ，其中 $V$ 是词汇表的大小。 $\text{Logits}$ 的维度为 $(n, V)$ ， $\text{Probabilities}$ 的维度同样为 $(n, V)$ ，表示每个时间步上各个词汇的概率。
通过这些步骤，解码器能够生成序列的下一个标记。

原文地址：https://blog.csdn.net/Zzzzyc_/article/details/140419408

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：浅谈Git
下一篇：Excel办公技巧：制作二级联动下拉菜单

关于selenium元素找不到的问题（Unable to locate element: {“method“:“xpath“,“selector“:“）
过了两周，查看日志发现，裂开了，又不好使了，然后，我重新运行了一遍，想找找问题，结果他又好使了。我真的裂开，裂开了啊，再然后下载页面，发现他会出现两种页面，并且页面源代码完全不同？之前一个任务让用se
阅读更多2024-11-17
iOS 键盘弹出视图精准上移
注意，我们可以自行设置一个适当的buffer,我这里是40，就是输入框距离。1 视图精准位移，需要计算出输入框距离屏幕底部的距离，然后。计算出输入框需要上移的距离，就是整个视图需要上移的距离,键盘有一
阅读更多2024-11-17
Intern大模型训练营（八）：Llamaindex RAG 实践
首先在Intern Studio中申请30% A100的开发机。进入开发机后，创建新的conda环境，命名为llamaindex复制完成后，在本地查看环境。运行conda命令，激活llamaindex
阅读更多2024-11-17
Spring事务管理
Spring事务管理是Spring框架中的一个重要功能，用于管理数据库事务。它提供了一种声明式的方式来管理事务，简化了开发人员的工作。
阅读更多2024-11-17
介绍一下整数在内存的储存形式(c基础)
把整数以二进制形式写出在前面补零(保证32位)把整数以二进制形式写出在前面补零（第一位为符号位负数为1，正数为0。第一位（左）为符号位补1。（即1变为0，0变为1)
阅读更多2024-11-17
Linux驱动开发第2步_“物理内存”和“虚拟内存”的映射
“新字符设备的GPIO驱动”和“设备树下的GPIO驱动”都要用到寄存器地址，使用“物理内存”和“虚拟内存”映射时，非常不方便，而pinctrl和gpio子系统的GPIO驱动，非常简化。因此，要重点学习
阅读更多2024-11-17
LLMs 激活函数篇
LLMs 激活函数
阅读更多2024-11-17
学习python的第十天之数据类型——dict字典
Python 中的字典（Dictionary）是一个非常强大的内置数据类型，它用来存储键值对（key-value pairs）信息。字典是无序的，这意味着它们不会记录你添加键值对的顺序；然而，从 Py
阅读更多2024-11-17
基于Java Springboot校园共享单车
为了节省时间和提高工作效率，越来越多的人选择利用互联网进行线上打理各种事务，然后线上管理系统也就相继涌现。基于这种情况，我们需要这样一个界面简单大方、功能齐全的系统来解决用户问题，满足用户需求。课题主
阅读更多2024-11-17
HashMap面试知识点
HashMap链表的插入的方式是是头插法，在多线程的情况下，容易产生环形链表，查询时就会产生死循环问题。HashMap的插入法改为了尾插法，但是多线程情况下依然会产生一些问题，例如前面说到的put()
阅读更多2024-11-17