GPT-Sovits-2-微调模型

🕗 发布于 2024-11-05 01:23 音频 人工智能

1. 大致步骤

上一步整理完数据集后，此步输入数据, 微调2个模型VITS和GPT，位置在 <<1-GPT-SoVITS-tts>>下的<<1B-微调训练>>

页面的两个按钮分别执行两个文件:

<./GPT_SoVITS/s2_train.py>

这一步微调VITS的预训练模型，即微调SynthesizerTrn模型

<./GPT_SoVITS/s1_train.py>

这一步微调GPT的预训练模型，这里采用的是google的soundstorm复现

模型结构文件在：’ ./GPT_SoVITS/AR/models/t2s_model.py’

注意，两个模型微调是独立的, 可分别完成

界面如下：

在这里插入图片描述

2. 微调过程

2.1执行SoVITS训练

这里webui.py中代码会用gradio框架将页面上的设置转换为python变量，并保存到‘。/TEMP’文件夹的‘tmp_s2.json’文件，用于送入s2_train.py作为训练参数
另外，‘./logs’下会生成 train.log 和 config.json文件，记录微调的配置信息。以及eval和logs_s2文件夹，同样记录训练过程数据。
微调后的模型保存到‘GPT_weights_v2’文件夹
配置记录：

train.log

2024-10-21 23:48:33,030XXX INFO{'train': {'log_interval': 100, 'eval_interval': 500, 'seed': 1234, 'epochs': 2, 'learning_rate': 0.0001, 'betas': [0.8, 0.99], 'eps': 1e-09, 'batch_size': 6, 'fp16_run': False, 'lr_decay': 0.999875, 'segment_size': 20480, 'init_lr_ratio': 1, 'warmup_epochs': 0, 'c_mel': 45, 'c_kl': 1.0, 'text_low_lr_rate': 0.4, 'pretrained_s2G': 'GPT_SoVITS/pretrained_models/gsv-v2final-pretrained/s2G2333k.pth', 'pretrained_s2D': 'GPT_SoVITS/pretrained_models/gsv-v2final-pretrained/s2D2333k.pth', 'if_save_latest': True, 'if_save_every_weights': True, 'save_every_epoch': 4, 'gpu_numbers': '0'}, 'data': {'max_wav_value': 32768.0, 'sampling_rate': 32000, 'filter_length': 2048, 'hop_length': 640, 'win_length': 2048, 'n_mel_channels': 128, 'mel_fmin': 0.0, 'mel_fmax': None, 'add_blank': True, 'n_speakers': 300, 'cleaned_text': True, 'exp_dir': 'logs/xxx'}, 'model': {'inter_channels': 192, 'hidden_channels': 192, 'filter_channels': 768, 'n_heads': 2, 'n_layers': 6, 'kernel_size': 3, 'p_dropout': 0.1, 'resblock': '1', 'resblock_kernel_sizes': [3, 7, 11], 'resblock_dilation_sizes': [[1, 3, 5], [1, 3, 5], [1, 3, 5]], 'upsample_rates': [10, 8, 2, 2, 2], 'upsample_initial_channel': 512, 'upsample_kernel_sizes': [16, 16, 8, 2, 2], 'n_layers_q': 3, 'use_spectral_norm': False, 'gin_channels': 512, 'semantic_frame_rate': '25hz', 'freeze_quantizer': True, 'version': 'v2'}, 's2_ckpt_dir': 'logs/xxx', 'content_module': 'cnhubert', 'save_weight_dir': 'SoVITS_weights_v2', 'name': 'xxx', 'version': 'v2', 'pretrain': None, 'resume_step': None}
2024-10-04 17:02:30,480xxx01INFOloaded pretrained GPT_SoVITS/pretrained_models/gsv-v2final-pretrained/s2G2333k.pth
2024-10-04 17:02:30,697xxx01INFOloaded pretrained GPT_SoVITS/pretrained_models/gsv-v2final-pretrained/s2D2333k.pth
2024-10-04 17:03:03,571xxx01INFOTrain Epoch: 1 [0%]
2024-10-04 17:03:03,571xxx01INFO[2.700843572616577, 2.197847366333008, 5.394582748413086, 18.876893997192383, 0.0, 2.0498788356781006, 0, 9.99875e-05]
2024-10-04 17:03:08,853xxx01INFO====> Epoch: 1
2024-10-04 17:03:14,537xxx01INFO====> Epoch: 2
2024-10-04 17:03:19,520xxx01INFO====> Epoch: 3
2024-10-04 17:03:24,553xxx01INFOSaving model and optimizer state at iteration 4 to logs/yc01/logs_s2\G_233333333333.pth
2024-10-04 17:03:26,369xxx01INFOSaving model and optimizer state at iteration 4 to logs/yc01/logs_s2\D_233333333333.pth
2024-10-04 17:03:32,288xxx01INFOsaving ckpt xxx01_e4:Success.

config.json

{"train": {"log_interval": 100, "eval_interval": 500, "seed": 1234, "epochs": 2, "learning_rate": 0.0001, "betas": [0.8, 0.99], "eps": 1e-09, "batch_size": 6, "fp16_run": false, "lr_decay": 0.999875, "segment_size": 20480, "init_lr_ratio": 1, "warmup_epochs": 0, "c_mel": 45, "c_kl": 1.0, "text_low_lr_rate": 0.4, "pretrained_s2G": "GPT_SoVITS/pretrained_models/gsv-v2final-pretrained/s2G2333k.pth", "pretrained_s2D": "GPT_SoVITS/pretrained_models/gsv-v2final-pretrained/s2D2333k.pth", "if_save_latest": true, "if_save_every_weights": true, "save_every_epoch": 4, "gpu_numbers": "0"}, "data": {"max_wav_value": 32768.0, "sampling_rate": 32000, "filter_length": 2048, "hop_length": 640, "win_length": 2048, "n_mel_channels": 128, "mel_fmin": 0.0, "mel_fmax": null, "add_blank": true, "n_speakers": 300, "cleaned_text": true, "exp_dir": "logs/xxx"}, "model": {"inter_channels": 192, "hidden_channels": 192, "filter_channels": 768, "n_heads": 2, "n_layers": 6, "kernel_size": 3, "p_dropout": 0.1, "resblock": "1", "resblock_kernel_sizes": [3, 7, 11], "resblock_dilation_sizes": [[1, 3, 5], [1, 3, 5], [1, 3, 5]], "upsample_rates": [10, 8, 2, 2, 2], "upsample_initial_channel": 512, "upsample_kernel_sizes": [16, 16, 8, 2, 2], "n_layers_q": 3, "use_spectral_norm": false, "gin_channels": 512, "semantic_frame_rate": "25hz", "freeze_quantizer": true, "version": "v2"}, "s2_ckpt_dir": "logs/xxx", "content_module": "cnhubert", "save_weight_dir": "SoVITS_weights_v2", "name": "xxx", "version": "v2"}

tmp_s2.json

{"train": {"log_interval": 100, "eval_interval": 500, "seed": 1234, "epochs": 2, "learning_rate": 0.0001, "betas": [0.8, 0.99], "eps": 1e-09, "batch_size": 6, "fp16_run": false, "lr_decay": 0.999875, "segment_size": 20480, "init_lr_ratio": 1, "warmup_epochs": 0, "c_mel": 45, "c_kl": 1.0, "text_low_lr_rate": 0.4, "pretrained_s2G": "GPT_SoVITS/pretrained_models/gsv-v2final-pretrained/s2G2333k.pth", "pretrained_s2D": "GPT_SoVITS/pretrained_models/gsv-v2final-pretrained/s2D2333k.pth", "if_save_latest": false, "if_save_every_weights": true, "save_every_epoch": 2, "gpu_numbers": "0"}, "data": {"max_wav_value": 32768.0, "sampling_rate": 32000, "filter_length": 2048, "hop_length": 640, "win_length": 2048, "n_mel_channels": 128, "mel_fmin": 0.0, "mel_fmax": null, "add_blank": true, "n_speakers": 300, "cleaned_text": true, "exp_dir": "logs/wmd"}, "model": {"inter_channels": 192, "hidden_channels": 192, "filter_channels": 768, "n_heads": 2, "n_layers": 6, "kernel_size": 3, "p_dropout": 0.1, "resblock": "1", "resblock_kernel_sizes": [3, 7, 11], "resblock_dilation_sizes": [[1, 3, 5], [1, 3, 5], [1, 3, 5]], "upsample_rates": [10, 8, 2, 2, 2], "upsample_initial_channel": 512, "upsample_kernel_sizes": [16, 16, 8, 2, 2], "n_layers_q": 3, "use_spectral_norm": false, "gin_channels": 512, "semantic_frame_rate": "25hz", "freeze_quantizer": true, "version": "v2"}, "s2_ckpt_dir": "logs/xxx", "content_module": "cnhubert", "save_weight_dir": "SoVITS_weights_v2", "name": “xxx”, "version": "v2"}

以上3个文件的内容是冗余的，配置信息的参数一致, 只是‘train.log’会记录微调时命令行的输出。

生成文件后，s2_train.py首先加载VITS预训练模型，之后训练设置的epoch数。

2.2执行GPT训练

这一步和上一步时类似，执行s2_train.py文件，微调后的模型保存到‘SoVITS_weights_v2’

3.语音合成

这一步位置在位置在 <<1-GPT-SoVITS-tts>>下的<<1C-推理>>，界面如下：

在这里插入图片描述

选择预训练
- GPT模型列表选择
- SoVITS模型列表选择
开启推理界面

点击开启TTS推理WebUi选项，就会弹出推理节目

这里执行的是’inference_webui.py’ 或 ‘inference_webui_fast.py’文件

4.推理界面(需要打开)

这里可以传一个参考音频，并填入对应语意文本，模型训练够好的话(数据+epoch够多)，也可以不传。

界面如下：

在这里插入图片描述

输出的语音就是克隆的声音了，由于版本还在更新，项目组可能后去还会更新改动页面和功能，因此这里只是大致流程。

Reference

https://github.com/yangdongchao/SoundStorm/blob/master/soundstorm/s1/AR/models/t2s_model.py
https://google-research.github.io/seanet/soundstorm/examples/

原文地址：https://blog.csdn.net/disanda/article/details/143337014

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：selenium 点击元素报错element not interactable
下一篇：selenium解决调用Chrome str’ object has no attribute ‘capabilities’ Process finished

Rust性能优化与调试之性能基准测试
在 Criterion 中创建多个测试组，通过分组功能生成针对不同环境（例如小规模数据 vs 大规模数据、冷缓存 vs 热缓存）的详细分析报告，帮助开发者在不同场景下优化性能。为保证测试结果的实用性，
阅读更多2024-11-08
ABC377
我们手动来看例子：5,6,3,1,2,4 -> 2,4,3,5,6,1 -> 4,5,3,6,1,2 -> 6,1,3,2,4,5。按顺序插入，插入的时候去看每个位置到之前的叶子节
阅读更多2024-11-08
Linux文本操作三大利器总结：sed、awk、grep
Linux文本操作三大利器总结：sed、awk、grep
阅读更多2024-11-08
第三章：TDengine 常用操作和高级功能
TDengine 是一个专门为物联网（IoT）和大数据场景设计的高性能时序数据库。除了基本的创建数据库、表、插入和查询数据之外，TDengine 还提供了许多其他常用操作和高级功能。
阅读更多2024-11-08
50岁+人群月活超1亿，短剧迎来新对手，小程序游戏“收割”中老年
年轻人玩的游戏太复杂了，基本的下载都很麻烦，小程序游戏操作方便，随时点开就可以在上面下象棋、打麻将，方便多了，”现年55岁的小刘叔叔告诉AgeTravel。过去受到中老年玩家欢迎的游戏产品，往往都具备
阅读更多2024-11-08
在 Bash 中获取 Python 模块变量列
在 Bash 中获取 Python 模块的变量列表可以通过使用 python -c 来运行 Python 代码并输出变量名列表。
阅读更多2024-11-08
斗破QT编程入门系列之二：认识Qt：编写一个HelloWorld程序（四星斗师）
窗口左侧有上下两个子窗口，上方的目录树显示了项目内文件的组织结构，显示当前项目的名称，项目的名称都成目录树的一个跟节点，Qt Creator可以打开多个项目，但是只有一个活动项目（Active Pro
阅读更多2024-11-08
Bash Shell - 获取日期、时间
以下代码将date的执行结果存储在today变量中。date 是获取日期和时间的命令。可以获取几周前/几周后或几个月前/之后的时间。选择使用 quotes(`)或$使用date获取日期。
阅读更多2024-11-08
深入理解 Linux 内存管理：free 命令详解
Linux 系统中 free 命令的使用及其输出各个字段的含义，理解物理内存和交换分区的使用情况，计算内存使用率，free 命令的其他重要选项及其组合使用方法，交换分区的作用、清除方法及其对性能的影响
阅读更多2024-11-08
GPU 服务器：超酷算力担当→科技界的宝藏神器！
这 GPU 服务器的厉害之处，很大程度上就靠它那超强的算力。电影制作的时候，GPU 服务器能快速搞特效处理，像《阿凡达》里的虚拟场景和特效制作，没 GPU 算力可不行。#GPU 服务器#高性能计算#图
阅读更多2024-11-08

GPT-Sovits-2-微调模型

1. 大致步骤

2. 微调过程

2.1执行SoVITS训练

2.2执行GPT训练

3.语音合成

4.推理界面(需要打开)

Reference

相关文章