自学内容网 自学内容网

如何在算家云搭建RVC-WebUI(语音转换)

一、Retrieval-based-Voice-Conversion-WebUI简介

Retrieval-based-Voice-Conversion-WebUI(简称 RVC)模型是一个基于 VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)的简单易用的语音转换框架,适用于制作“变声器”,实现语音转换。

具有以下特点

  • 简单易用:RVC 模型通过简单易用的网页界面,使得用户无需深入了解复杂的语音处理技术,即可实现语音转换。
  • 低延迟与高效能:RVC 模型在实时语音转换中表现出低延迟的特点,同时能够在相对较差的显卡上也能快速训练,提高了模型的普及性和实用性。
  • 少量数据训练:使用少量数据(推荐至少 10 分钟低底噪语音数据)进行训练,即可得到较好的语音转换效果,降低了数据收集的难度和成本。
  • 音色克隆:RVC 模型支持克隆说话
  • 人的声音,包括歌曲的翻唱和实时的变声,具有优秀的变声效果。
  • 杜绝音色泄漏:通过 top1 检索替换输入源特征为训练集特征,有效杜绝了音色泄漏的问题。
  • 可以通过模型融合来改变音色(借助 ckpt 处理选项卡中的 ckpt-merge)
  • 可调用 UVR5 模型来快速分离人声和伴奏

二、模型搭建流程

测试环境

已在RTX3090,Python 3.10,CUDA12.2上测试

1. 容器镜像一键使用

(1)在算家云“应用社区”中搜索或找到“Retrieval-based-Voice-Conversion-WebUI”,或者在左侧“音频生成”选项功能中单击选择“语音转换”

image.png

image.png

image.png

(2)进入“租用实例”页面后之后会自动匹配模型,选择 3090 卡或其他性能优于 3090 的显卡,点击“立即创建”即可创建实例

1726729621267.jpg

2.启动项目

(1)实例创建成功之后,点击“项目实例”再点击“WebssH”开启终端(小黑屏)

image.png

使用下列命令运行项目:

cd /Retrieval-based-Voice-Conversion-WebUI-main/
conda activate retrieval
export GRADIO_SERVER_NAME=0.0.0.0
export GRADIO_SERVER_PORT=8080
python infer-web.py

image.png

3.开启外部访问

返回“项目实例”列表,选择并点击对应实例的“开放端口”操作。

image.png

有两种访问方式可以选择:本地私密访问和对外开放端口。

(1)本地私密访问:选择 ssh 工具访问,登录之后填写各选项,点击“开启代理”

image.png

(2)对外开放端口:请按照下图操作

image.png

4.获取访问地址,并开始使用

打开浏览器,在地址栏 Ctrl+V 粘贴复制的访问地址进行访问,即可开始使用 RVC。

image.png

以上就是在算家云搭建 RVC-WebUI 的流程,具体使用方式可进入算家云应用社区查看该模型的使用说明。

复制下方网址,进入算家云,选择模型,一键开启 AI 之旅!

算家云应用社区 www.suanjiayun.com/container/#/mirror

首页.png


原文地址:https://blog.csdn.net/SJJS_1/article/details/142364750

免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!