通义实验室开源 ClearerVoice-Studio语音处理框架

🕗 发布于 2024-12-13 21:05 chatgpt 人工智能 ai OpenAI 通义

随着语音技术的普及，语音质量已成为人们关注的焦点。环境噪声、混响、设备拾音等问题，常常使语音质量和可懂度大打折扣。

无论是录制清晰语音却因周围环境嘈杂充满噪声，还是在地铁、餐厅等喧闹场景中与人通话时不得不提高嗓音，这些场景都体现了语音处理技术的迫切需求。特别是在复杂的多人对话环境中，如何有效分离目标说话人的语音信号，避免其他干扰，一直是语音处理领域的难点和热点。

通义实验室开源 ClearerVoice-Studio，一个集成语音增强、语音分离和音视频说话人提取等功能的语音处理框架。通过融合复数域深度学习算法，我们大幅提升了语音降噪和分离的性能，能够最大限度地消除背景噪声并保留语音清晰度，同时保持语音失真最小化。

💡 ClearerVoice-Studio 能为您做什么？

高效去除背景噪声，将嘈杂语音处理成高质量、清晰的语音信号；
从复杂音频混合中轻松分离目标语音，满足多种语音处理需求；
使用音视频结合的模型精确提取目标说话人的语音信号；
使用模型训练和调优工具进行模型效果打磨；

📂 代码仓库

GitHub 仓库：ClearerVoice-Studio https://github.com/modelscope/ClearerVoice-Studio
在线 Demo：Hugging Face Space https://huggingface.co/spaces/alibabasglab/ClearVoice

‍▎核心模型与算法亮点

FRCRN 模型：在 2022 年 IEEE/INTER Speech DNS Challenge 中取得整体第二的优异成绩，展现出卓越的语音增强能力。

MossFormer 系列模型：在语音分离任务中表现卓越，首次超越 SepFormer，获得业内广泛认可。目前，MossFormer 框架已扩展至语音增强和目标说话人提取任务。基于 MossFormer2 的 48kHz 语音增强模型在有效抑制噪声的同时，大幅降低了语音失真。

我们致力于将这些先进模型和算法通过 ClearerVoice-Studio 平台开放给更多用户，希望为开发者、研究者和企业提供强大的语音处理工具，助力创新应用落地。

‍▎效果体验

点击以下链接即可轻松上手🔗：https://huggingface.co/spaces/alibabasglab/ClearVoice

如何操作：

准备一段包含噪声的语音文件；
上传至指定页面；
一键处理后，您可以在线试听，也可以下载处理结果到本地。即刻获得清晰的音质、和卓越的降噪效果。

更多模型评测结果及技术细节，请访问 ClearerVoice-Studio 页面了解详情。

相关文献参考：

【1】Zhao, Shengkui and Ma, Bin and Watcharasupat, Karn N. and Gan, Woon-Seng, “FRCRN: Boosting Feature Representation Using Frequency Recurrence for Monaural Speech Enhancement”, ICASSP 2022 - 2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP).

【2】Zhao, Shengkui and Ma, Bin, “MossFormer: Pushing the Performance Limit of Monaural Speech Separation using Gated Single-head Transformer with Convolution-augmented Joint Self-Attentions”, ICASSP 2023 - 2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP).

【3】Zhao, Shengkui and Ma, Bin et al, “MossFormer2: Combining Transformer and RNN-Free Recurrent Network for Enhanced Time-Domain Monaural Speech Separation”, ICASSP 2024 - 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP).

原文地址：https://blog.csdn.net/weixin_48827824/article/details/144425846

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：MSF（Metasploit Framework）常用命令
下一篇：《手写Mybatis渐进式源码实践》实践笔记（第四章 Mapper XML的解析和注册使用）

.NET(C#) 如何配置用户首选项及保存用户设置
.NET(C#) 如何配置用户首选项及保存用户设置
阅读更多2024-12-14
【最新】北大数字普惠金融指数数据集-省市县（2011-2023年）
郭峰,王靖一,王芳,孔涛,张勋,程志云.测度中国数字普惠金融发展:指数编制与空间特征[J].经济学(季刊),2020,19(04):1401-1418.时间跨度：省级和城市级指数时间跨度为2011-2
阅读更多2024-12-14
GESP202412 四级【Recamán】题解（AC）
a11ak−1−kkakak−1−kak−1k小杨想知道 Recamán 数列的前n项从小到大排序后的结果。手动计算非常困难，小杨希望你能帮他解决这个问题。
阅读更多2024-12-14
IDEA遇到EasyConnect中的网络资源无法访问的问题
版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。原文链接：https://blog.csdn.net/wanshanyu_/article/de
阅读更多2024-12-14
双目摄像头标定方法
此时已经完成标定，左下角为反投影误差，右边为外参可视化。将双目左右目拍的图像上传（左右目最好不少于20张）此时回到主页面，即可看到成功导出。把这些误差大的删除即可。
阅读更多2024-12-14
Servlet、omcat服务器架构与工作原理
Servlet是运行在服务器端的Java程序，它的主要职责之一是接收并处理来自客户端（如浏览器）的HTTP请求。当客户端发送一个请求到服务器时，Servlet可以解析请求中的信息，例如请求的URL路径
阅读更多2024-12-14
Vue生命周期钩子函数：深入解析与实践
作为高级Vue前端开发人员，对Vue组件的生命周期钩子函数有着深刻的理解是至关重要的。生命周期钩子函数是指在Vue组件的创建、更新、销毁等过程中，Vue自动调用的一系列方法。通过这些钩子函数，我们可以
阅读更多2024-12-14
安卓开发--使用android studio发布APP
app发布
阅读更多2024-12-14
数据结构与算法学习笔记----拓扑排序
@ author: 明月清了个风。
阅读更多2024-12-14
python 将数据保存到现有的Excel文件的新工作表
out_file = ‘query.xlsx’df1 = pd.DataFrame(out_data)若直接写入：df1.to_excel(out_file, index=False, sheet_n
阅读更多2024-12-14

通义实验室开源 ClearerVoice-Studio语音处理框架

💡 ClearerVoice-Studio 能为您做什么？

📂 代码仓库

‍▎核心模型与算法亮点

‍▎效果体验

相关文章