环境背景文本到语音转换

🕗 发布于 2024-11-11 04:21 语音识别 人工智能

🏡作者主页：点击！

🤖编程探索专栏：点击！

⏰️创作时间：2024年11月9日23点20分

点击开启你的论文编程之旅https://www.aspiringcode.com/content?id=100000000027&uid=a9ecaa6323844415b877301488ebd763

概述

论文标题：VoiceLDM: Text-to-Speech with Environmental Context

本文提出了 VoiceLDM，这是一种旨在生成准确遵循两种不同自然语言文本提示的音频的模型：描述提示和内容提示。前者提供有关音频整体环境背景的信息，而后者则传达语言内容。为了实现这一目标，我们采用基于潜在扩散模型的文本到音频（TTA）模型，并扩展其功能以纳入额外的内容提示作为条件输入。通过利用预训练对比语言音频预训练 (CLAP) 和 Whisper，VoiceLDM 可以在大量真实世界音频上进行训练，而无需手动注释或转录。此外，我们采用双分类器免费引导来进一步增强 VoiceLDM 的可控性。实验结果表明，VoiceLDM 能够生成与两种输入条件均吻合的可信音频，甚至超过了 AudioCaps 测试集上真实音频的语音清晰度。此外，我们还探索了 VoiceLDM 的文本转语音 (TTS) 和零样本文本转音频功能，并表明它取得了有竞争力的结果。

演示效果

这里可以看到演示效果（暂时只支持英文，不过试了一下拼音，效果尚可）

1、描述一个环境，比如：She is talking in a park！
2、写下一段内容，比如：Good morning! How are you feeling today?
3、程序就可以输出一段环境语音，让你一下子就能感受到：早晨鸟语花香的公园里，她在跟人家亲切的打招呼的场景语音

核心逻辑

详见github原文描述

环境声（文本转音频） + 说话声（文字转语音） = 场景合成声（环境控制的文本转语音）

使用方式

生成带有描述提示和内容提示的音频

python generate.py --desc_prompt "She is talking in a park." --cont_prompt "Good morning! How are you feeling today?"

上述程序初次调用会下载对应模型，有些资源可能需要魔法：

涉及的模型（运行程序时会自动下载）:

成功后会生成语音在outputs文件夹下：

成功的路上没有捷径，只有不断的努力与坚持。如果你和我一样，坚信努力会带来回报，请关注我，点个赞，一起迎接更加美好的明天！你的支持是我继续前行的动力！"

"每一次创作都是一次学习的过程，文章中若有不足之处，还请大家多多包容。你的关注和点赞是对我最大的支持，也欢迎大家提出宝贵的意见和建议，让我不断进步。"

神秘泣男子

原文地址：https://blog.csdn.net/jxjdhdnd/article/details/143653268

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：《深度学习》bert自然语言处理框架
下一篇：从奇富科技，QQ钱包看信贷服务、贷款超市的的客户注册认证流程有什么不同

大数据机器学习算法与计算机视觉应用02：线性规划
在零和博弈中，是概率和对应收益乘积的总和（收益给定），在最大流问题中，是通往终点所有流量的总和。卡马卡方法又被称作内部点方法，它寻找最优解的方法并非从可行域边界的一个顶点出发，而是从可行域内部的一个点
阅读更多2024-11-15
Python学习------第八天
num = int (input("请输入您想存入多少钱：请输入："))print(f"{name},你好，你的余额剩余:{money}元")num = in
阅读更多2024-11-15
【qt】控件
frameGeometry是开始从红圈开始算，Geometry从黑圈算程序证明：使用一个按键，当按键按下,qdebug打印各自左上角的坐标（相当于屏幕左上角），以及窗口大小视频演示：frameGeom
阅读更多2024-11-15
Jupyter notebook如何加载torch环境
Jupyter notebook如何加载torch环境
阅读更多2024-11-15
「QT」文件类之 QDataStream 数据流类
QDataStream是Qt框架中的一个类，它提供了基于Qt数据类型的二进制流接口。通过QDataStream，可以方便地将Qt的基本数据类型（如整型、浮点型、字符串等）以及自定义的Qt对象序列化（即
阅读更多2024-11-15
在vue项目中使用SM4加密登录
在 utils 文件夹中创建 sm4Util.js 文件。
阅读更多2024-11-15
力扣654：最大二叉树
力扣654：最大二叉树。C语言
阅读更多2024-11-15
Linux各种解压命令汇总
最常用的是.tar.gz，原因：linux各种版本标准压缩方式，几乎各大版本可以直接用；【注意】：.tar不是压缩的格式，tar只是按照一定的格式将所有的文件打包在一起。压缩目录tar cf - te
阅读更多2024-11-15
命令行打包Java工程
表示跳过测试可用于指定本地maven仓库路径。
阅读更多2024-11-15
web服务器
web 服务器提供的这些数据大部分都是文件，那么我们需要在服务器端先将数据文件写好，并且放置在某个特殊的目录下面，这个目录就是我们整个网站的首页，在nginx 中，这个目录默认在浏览器是通过你在地址栏
阅读更多2024-11-15

环境背景文本到语音转换

点击开启你的论文编程之旅https://www.aspiringcode.com/content?id=100000000027&uid=a9ecaa6323844415b877301488ebd763

概述

演示效果

核心逻辑

使用方式

相关文章