柠檬叔的博客

其实我玩了一下OpenAI那边的Wisper的ASR，效果是不错，但是语音分离技术上让人很抓狂

然后也玩过声音Clone的几个模型，效果其实都一般，我其实很想要GPT的TTS技术

另外今天还刷到一个叫ChatTTS的项目，稍后再去试吧

今天试试这个，GPT-SoVITS，这个是B站的死宅们用得最多的一个

1、零样本文本到语音（TTS）： 输入 5 秒的声音样本，即刻体验文本到语音转换。

2、少样本 TTS： 仅需 1 分钟的训练数据即可微调模型，提升声音相似度和真实感。

3、跨语言支持： 支持与训练数据集不同语言的推理，目前支持英语、日语和中文。

4、WebUI 工具： 集成工具包括声音伴奏分离、自动训练集分割、中文自动语音识别(ASR)和文本标注，协助初学者创建训练数据集和 GPT/SoVITS 模型。

我看了一下功能，卧槽

真的是死宅们爱是有道理的啊

装装看

https://github.com/RVC-Boss/GPT-SoVITS/blob/main/docs/cn/README.md

===================================