Tacotron：[Tacotron: A Fully End-To-End Text-To-Speech Synthesis Model]

🕗 发布于 2024-10-05 18:03 python

前言

介绍

语音合成系统通常包含多个阶段，例如TTS Frontend，Acoustic model和Vocoder，如下图更直观清晰一点：
在这里插入图片描述
构建这些组件通常需要广泛的领域专业知识，并且可能包含脆弱的设计选择。在很多人困扰于繁杂的特征处理的时候，Google推出了Tacotron，一种从文字直接合成语音的端到端的语音合成模型，虽然在效果上相较于传统方法要好，但是相比Wavenet并没有明显的提升（甚至不如Wavenet），不过它更重要的意义在于end-to-end（Wavenet是啥将在后面对比vocoder的时候讲解，顺便提一下Tacotron使用的是Griffin-Lim算法，而Tacotron2使用的是修改版Wavenet）。此外，相较于其他样本级自回归方法合成语音，Tacotron和Tacotron2是在帧级生成语音，因此要快得多。

在传统的Pipeline的统计参数TTS，通常有一个文本前端提取各种语言特征，持续时间模型，声学特征预测模型和基于复杂信号处理的声码器。而端到端的语音合成模型，只需要对文本语音进行简单的处理，就能喂给模型进行学习，极大的减少的人工干预，对文本的处理只需要进行文本规范化以及分词token转换（论文中使用character，不过就语音合成而言，使用Phoneme字典更佳），关于文本规范化（数字、货币、时间、日期转完整单词序列）以及text-to-phoneme可以参见我的另一篇利器：TTS Frontend 中英Text-to-Phoneme Converter，附代码。端到端语音合成系统的优点如下：

减少对特征工程的需求
更容易适应新数据（不同语言、说话者等）
单个模型可能比组合模型更健壮，在组合模型中，每个组件的错误都可能叠加而变得更加复杂

端到端语音合成模型的困难所在：
不同Speaker styles以及不同pronunciations导致的对于给定的输入，模型必须对不同的信号有着更大的健壮性，除此之外Tacotron原本下描述：

TTS is a large-scale inverse problem: a highly compressed source (text) is “decompressed” into audio

上面这句是Tacotron原文中说的，简单来说就是TTS输出是连续的，并且输出序列（音频）通常比输入序列（文本）长得多，导致预测误差迅速累积。想要了解更多关于语音合成的背景知识，可以参考文章Text-to-speech

模型结构

Tacotron

Tacotron的基础架构是Seq2Seq模型，下图是模型的总体架构，该模型包括编码器，基于注意力的解码器和post-processing net，从高层次上讲，模型将字符作为输入，并生成频谱图，然后将其转换为波形。
在这里插入图片描述
要特别说明的是架构中，raw text经过pre-net后，将会把输出喂给一个叫CBHG的模块以映射为hidden representation，再之后decoder会生成mel-spectrogram frame。所谓CBHG就是作者使用的一种用来从序列中提取高层次特征的模块，如下图所示：
在这里插入图片描述

CBHG内部结构说明

CBHG使用了1D卷积、highway、残差链接和双向GRU的组合，输入序列，输出同样也是序列，因此&

原文地址：https://blog.csdn.net/mohen_777/article/details/140609506

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：Unity实战案例全解析：RTS游戏的框选和阵型功能总结
下一篇：高并发领取优惠卷加锁的坑！（事务边界问题/事务失效问题）

freex源码抄写+ue5视频2个+渲染泛读催眠
freex的四个模块共计408741行（含空格和注释），如果周一到周四每天300行，周六日开着和平精英抄1000行，那就每周3200行，128周，ue独立游戏可以在周一到周四晚上进行，UE C++视频
阅读更多2024-10-05
【信息系统项目管理师考题预测】整合管理
信息系统项目整合管理是项目管理中的一个重要领域，其常考题目通常涉及项目整合管理的各个方面，包括内容、作用、重要性、过程、输入输出、工具技术，以及在实际项目中遇到的问题与解决方法等。
阅读更多2024-10-05
魔都千丝冥缘——软件终端架构思维———未来之窗行业应用跨平台架构
在那神秘而复杂的数字世界里，软件的舞台上正上演着一场精彩的剧目。当面对终端单页面中如蛛网般交织的复杂业务逻辑，我们如同在迷雾中摸索前行。多个表单承载着各自的使命，却又有着相同字段的微妙关联，而内容却又
阅读更多2024-10-05
解决MySQL报Incorrect datetime value错误
MySQL报错--解决 Incorrect datetime value错误
阅读更多2024-10-05
【pytorch】权重为0的情况
记录一下上述代码，体现了隐含层和输出层的权重为全0时的结果，可惜奇怪的是李沐的例子中权重改为全0仍然能够成功训练，目前还不知道为什么。
阅读更多2024-10-05
如何实现事件流操作
ystemChrome这个类及其方法只能在main方法中运行，其它地方无法使用
阅读更多2024-10-05
《python语言程序设计》2018版第8章19题几何Rectangle2D类(下)-头疼的几何和数学
看来多用空格按钮先从网上找一下Statement expected, found Py:DEDENTTAB还是空格呢??小小总结如何拆分矩形的四个点呢.我们来小小的测试一下这个函数结果出在哪里呢???
阅读更多2024-10-05
如何提高游戏本地化的质量使用QE门户网站Logrus IT
如果直接在游戏背景下进行测试，可以取得更大的效果，这将需要略高的预算。QE门户网站Logrus IT允许您根据现场本地化版本或截图中的脚本进行评估。请咨询如何验证您的内容质量，并在本页订购此服务
阅读更多2024-10-05
CSP-S 2021 T1廊桥分配
CSP-S 2021 T1廊桥分配
阅读更多2024-10-05
动态SLAM总结一
汇总自己最近看到的有关动态SLAM的论文，主要包括离线以及在线，同时包括三大分类，基于深度学习的、基于可视化的、基于网格占据的。这篇文章只是自己学习过程的一个记录，很多可能不是正确的，仅供参考
阅读更多2024-10-05

Tacotron：[Tacotron: A Fully End-To-End Text-To-Speech Synthesis Model]

前言

介绍

模型结构

Tacotron

CBHG内部结构说明

相关文章