侧边栏壁纸
博主头像
枫叶实验室博主等级

小荷才露尖尖角, 早有蜻蜓立上头

  • 累计撰写 6 篇文章
  • 累计创建 21 个标签
  • 累计收到 0 条评论

目 录CONTENT

文章目录

AI语音克隆大模型GPT-SoVITS初体验

枫叶随想
2024-06-24 / 0 评论 / 3 点赞 / 264 阅读 / 5314 字
温馨提示:
部分素材来自网络,若不小心影响到您的利益,请联系我们删除

1 GPT-SoVITS介绍

GPT-SoVITS是花儿不哭大佬研发的低成本AI音色克隆软件。目前只有TTS(文字转语音)功能,将来会更新变声功能
项目地址:https://github.com/RVC-Boss/GPT-SoVITS

TTS(Text-To-Speech)这是一种文字转语音的语音合成
GPT-SoVITS实现了:

  • 由参考音频的情感、音色、语速控制合成音频的情感、音色、语速
  • 跨语种文字转语音,比如参考音频是英文,可学习其音色、情感、语速将中文文本转成中文语音

2 GPT-SoVITS安装

macOS Sonoma 一键安装

下载安装

iCloud链接:https://www.icloud.com/iclouddrive/09ccZHBu_b_Aj4LKZgW0HxxrA#GPT-SoVITS
下载后并解压,找到install for mac.sh,终端执行bash+空格+拖拽install for mac.sh文件

注意事项
将安装包解压到macOS的移动硬盘,如果使用软件解决读取NTFS移动硬盘的方案会导致程序运行异常
解决方案:将macOS上的移动硬盘格式化成 APFS格式
方法:找到磁盘工具 -> 选择要格式化的硬盘->选择该磁盘的最顶级->点击抹掉->按下图所示进行设置->点击抹掉(有数据记得提前备份)

3 GPT-SoVITS上手

3.1 声音样本处理

3.1.1 人声分离

使用自带的UVR5工具,执行HP2模型将人声和背景音去除,注意尽量选择bgm不太大的声音样本
执行完后, 将纯背景音音频文件删除,保留纯人声音频文件

3.1.2 去混响

将上一步保留的纯人声音频作为源,执行onnx_dereverb 模型,对处理完生成的两个文件保留带main命名的音频文件,删除带other的音频文件
同样的操作最后再使用 DeEcho-Aggressive模型去混响,保留最终去完混响的音频文件在后续步骤中使用

执行完上述步骤后,会在 output\uvr5_opt 目录下生成我们需要的声音样本文件

3.2 切割声音样本

选择上述处理好的音频源文件,将文件路径按如下图所示贴到左上角位置,点击开启语音切割

执行完上述步骤后,会在 output\slicer_opt 目录下生成我们需要的声音样本文件

3.3 降噪

将上述声音样本切割完生成的slicer_opt音频文件路径贴到 降噪音频文件输入文件夹 处 ,并开启语音降噪

执行完上述步骤会在 output\denoise_opt 目录下生成降噪处理后的声音样本文件

3.4 声音样本语音转文字

将上述声音样本切割完生成的denoise_opt音频文件路径贴到如下图所框选处 ,并开启离线批量ASR

执行完上述步骤会在 output\asr_opt 目录下生成声音样本转文字的文本文件,如下图所示

3.5 文字校对

点击勾选打开文字校对UI,并填入上述asr_opt 文件下生成的 .list文件路径,会进入到新的页面对文字进行修改,每一页修改完都要点一下保存修改(Submit Text),如果没保存就翻页那么会重置文本,在完成退出前要点保存文件(Save File)

3.6 数据格式化

将伤处修改好的语音转文字 .list文件路径,和切割完并进行降噪处理的声音片段文件夹路径分别贴到对应的
问班标注文件训练集音频文件目录 如下图所示,并开启一键三连

执行完会显示 一键三连已结束,为下一步语音样本克隆模型做准备

3.7 声音模型训练

为模型取一个英文名称,按如图所示开启SoVITS、GPT训练

训练结束会提示训练完成

3.8 文字转语音推理

找到推理tab,刷新模型,可以开始文字转语音体验

3

评论区