其实我玩了一下OpenAI那边的Wisper的ASR,效果是不错,但是语音分离技术上让人很抓狂

然后也玩过声音Clone的几个模型,效果其实都一般,我其实很想要GPT的TTS技术

另外今天还刷到一个叫ChatTTS的项目,稍后再去试吧

今天试试这个,GPT-SoVITS,这个是B站的死宅们用得最多的一个

1、零样本文本到语音(TTS): 输入 5 秒的声音样本,即刻体验文本到语音转换。

2、少样本 TTS: 仅需 1 分钟的训练数据即可微调模型,提升声音相似度和真实感。

3、跨语言支持: 支持与训练数据集不同语言的推理,目前支持英语、日语和中文。

4、WebUI 工具: 集成工具包括声音伴奏分离、自动训练集分割、中文自动语音识别(ASR)和文本标注,协助初学者创建训练数据集和 GPT/SoVITS 模型。

我看了一下功能,卧槽

真的是死宅们爱是有道理的啊

装装看

 https://github.com/RVC-Boss/GPT-SoVITS/blob/main/docs/cn/README.md 

===================================

我现在都不爱用conda啊python的venv环境安装这些东西,因为十分容易损坏(其实还是因为我自己习惯也不好,经常喜欢更新系统)

解压,也能看得出来,这实际上是0217版本的

所以我,最终选择了下载0306版本

又是4G

我得天啊,10个G的大小,这应该是所有的模型都含进去了

否则这么大简直没天理

我心里一慌,赶紧把ComfyUI关掉了,真都是些耗能大户呗



 go-webui.bat

看了一下哈,这个整合包里模型这些基本都下载好了的,省心

哎呦喂

报错哎,真不靠谱,算了,明天再说