深度学习基础—Seq2Seq模型

🕗 发布于 2024-11-18 16:54 深度学习 人工智能

1.Seq2Seq模型

假设我们进行机器翻译任务，输入一个法语句子：“Jane visite I'Afrique en septembre.”，将它翻译成一个英语：“Jane is visiting Africa in September.”。

seq2seq模型有编码器和解码器组成，编码器是RNN网络，可以是GRU单元，也可以是LSTM，如上编号1 所示。编码器接受所有词向量后，得到一个输出向量，将输出向量输入到解码器中。

解码器每次输出一个翻译后的单词，一直到输出序列的结尾或者句子结尾标记。解码器的结构和编码器不太一样，它把每次生成的标记都传递到下一个单元中来进行预测，就像之前用语言模型合成文本时一样。

深度学习基础—序列采样https://blog.csdn.net/sniper_fandc/article/details/143457214?fromshare=blogdetail&sharetype=blogdetail&sharerId=143457214&sharerefer=PC&sharesource=sniper_fandc&sharefrom=from_link

类似翻译任务，我们也可以用相似的结构做图片描述任务。假设输入猫咪图片，经过预训练的AlexNet网络（上图编号2）作为编码器，让其学习图片的编码，去掉最后的softmax单元（编号3），AlexNet网络会输出一个4096维的特征向量。接着把这个向量输入到RNN中（编号4），RNN要做的就是生成图像的描述，和seq2seq解码器的结构相似，最终可以输出图片的描述。

网络的结构已经了解，但是网络如何根据结果优化参数呢？也就是生成的翻译或描述的句子，怎么能确定这个句子就是我们最希望得到的？

2.选择最可能的句子

用绿色（编号2）表示encoder网络，用紫色（编号3）表示decoder网络。decoder网络和编号4的语言模型几乎一模一样，机器翻译模型其实和语言模型非常相似，不同在于语言模型总是以零向量开始，而encoder网络会计算出一系列向量来表示输入的句子。decoder网络就可以以encoder网络的输出开始，而不是以零向量开始，所以它叫做条件语言模型（conditional language model）。相比语言模型，输出任意句子的概率，翻译模型会输出句子的英文翻译。

现在我们可能得到4条翻译后的语句，如上图所示。显然，第一个句子最好，但是并不是从得到的分布中进行随机取样，而是要找到一个英语句子使得条件概率最大化，即上图编号1的公式。现在我们希望找到一种算法，可以使条件概率最大化，那是否可以使用贪心算法呢？

假设贪心算法挑选出了“Jane is”作为前两个词，因为在英语中going更加常见，于是对于法语句子来说“Jane is going”相比“Jane is visiting”会有更高的概率作为翻译，但在模型中这不是一个最好的选择。

而且，词典中单词有很多，词组也有很多，但是我们不能去计算每一种组合的可能性，因为这样的组合数是指数级的。因此我们会采用近似的搜索算法，也就是下一篇博客的集束搜索。

原文地址：https://blog.csdn.net/sniper_fandc/article/details/143781223

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：web前端开发--盒子属性
下一篇：IDEA优雅debug

MoneyPrinterTurbo - AI自动生成高清短视频
MoneyPrinterTurbo是一款基于AI大模型的开源软件，旨在通过一键操作帮助用户自动生成高清短视频。只需提供一个视频主题或 **关键词** ，就可以全自动生成视频文案、视频素材、视频字幕、
阅读更多2024-11-18
跨平台WPF框架Avalonia教程五
在 Avalonia 11 之前，控件主题是使用标准样式创建的。然而，这种方法存在一个根本性的问题：一旦样式被应用到控件上，就没有办法移除它。因此，如果你想为特定的控件实例或用户界面（UI）部分更改
阅读更多2024-11-18
Linux 下网络套接字(Socket) 与udp和tcp 相关接口
Linux下套接字的介绍与使用
阅读更多2024-11-18
react 中 useReducer Hook 作用
useState`是最基本的状态管理钩子。`useReducer`提供了一种更可预测的状态管理方式。
阅读更多2024-11-18
【自学笔记】推荐系统
（Retrieval）步骤的目的是从庞大的候选集合中快速筛选出一小部分最有可能满足用户需求的项目。这样做可以简化梯度计算，更显著的变化是，如果人没有为任何样本打分，那代入TA的初始参数。我们需要做的是
阅读更多2024-11-18
【jvm】方法区是否存在GC
6.在Hotspot虚拟机中，方法区对应的是持久代（PermGen space，在JDK 8及之后被元空间Metaspace取代），尽管持久代上的GC较少，但并不代表完全没有。2.在JVM（Java虚
阅读更多2024-11-18
2411rust,异步函数
2411rust,异步函数
阅读更多2024-11-18
用 Python 从零开始创建神经网络（八）：梯度、偏导数和链式法则
在我们继续编写我们的神经网络代码之前，最后两个需要解决的难题是梯度和偏导数的相关概念。我们到目前为止解决的导数案例都是函数中只有一个独立变量的情况——也就是说，结果完全依赖于xx（在我们的案例中）。然
阅读更多2024-11-18
深度学习之One Stage目标检测算法2
YOLO（You Only Look Once: Unified, Real-Time Object Detection）是one-stage detection的开山之作。之前的物体检测方法首先需要
阅读更多2024-11-18
TCP协议的代理IP是什么？
对于需要大量数据传输和高效通信的场景，代理IP技术提供了至关重要的支持。TCP协议作为互联网通信中最基础和最常用的协议之一，与代理IP技术的结合成为了许多企业和开发者进行网络操作时不可或缺的一部分。那
阅读更多2024-11-18

深度学习基础—Seq2Seq模型

1.Seq2Seq模型

2.选择最可能的句子

相关文章