Chat with Wiki - 开源的，新一代的 tts 框架有哪些？

Answer

以下是一些开源的新一代 TTS 框架：

GPT-SoVITS：这是一个声音克隆和文本到语音转换的开源 Python RAG 框架。只需 1 分钟语音即可训练一个自己的 TTS 模型，5 秒数据就能模仿，1 分钟的声音数据就能训练出高质量的 TTS 模型，完美克隆声音。它完美适配中文，具有零样本 TTS、少量样本训练、易于使用的界面、跨语言支持、适用于不同操作系统、提供预训练模型等特点。
ChatTTS：针对对话式任务进行了优化，实现自然流畅的语音合成，同时支持多说话人。能够预测和控制细粒度的韵律特征，包括笑声、停顿和插入词等。在韵律方面超越了大部分开源 TTS 模型，并提供预训练模型，但存在模型稳定性不足的问题。目前发布的模型版本中，情感控制仅限于笑声以及一些声音中断，作者计划在未来的版本中开源更多情感控制的功能。如今陆续出现了在线网站和本地增强整合包。
B 站 up“花儿不哭”大佬的开源项目 gpt-sovits 也被用于节目《马上封喉》的 TTS 中，只需 1 分钟的干声素材就可以实现惊艳的效果，甚至实现了 zero-shot（零样本），但单字和中英文混杂的词句效果还有待提高。

Content generated by AI large model, please carefully verify (powered by aily)

References

GPT-SoVITS：只需1分钟语音即可训练一个自己的TTS模型。GPT-SoVITS是一个声音克隆和文本到语音转换的开源Python RAG框架。5秒数据就能模仿你，1分钟的声音数据就能训练出一个高质量的TTS模型，完美克隆你的声音！根据演示来看完美适配中文，应该是目前中文支持比较好的模型。界面也易用。主要特点：1、零样本TTS：输入5秒的声音样本即可体验即时的文本到语音转换。2、少量样本训练：只需1分钟的训练数据即可微调模型，提高声音相似度和真实感。模仿出来的声音会更加接近原声，听起来更自然。跨语言支持：支持与训练数据集不同语言的推理，目前支持英语、日语和中文。3、易于使用的界面：集成了声音伴奏分离、自动训练集分割、中文语音识别和文本标签等工具，帮助初学者更容易地创建训练数据集和GPT/SoVITS模型。4、适用于不同操作系统：项目可以在不同的操作系统上安装和运行，包括Windows。5、预训练模型：项目提供了一些已经训练好的模型，你可以直接下载使用。

卡尔：终于蹲到ChatTTS增强版整合包，AI视频配角们有了自己的声音～

1.✅对话式TTS：ChatTTS针对对话式任务进行了优化，实现了自然流畅的语音合成，同时支持多说话人。2.✅细粒度控制：该模型能够预测和控制细粒度的韵律特征，包括笑声、停顿和插入词等。3.✅更好的韵律：ChatTTS在韵律方面超越了大部分开源TTS模型，并提供预训练模型。4.❌模型稳定性：自回归模型存在稳定性不足的问题，可能会出现声音突然变成其他人的声音，或者音质突然变差，可以通过多次尝试来寻找更好的音频效果。5.⭕️情感控制：目前发布的模型版本中，情感控制仅限于笑声（[laugh]）以及一些声音中断（[uv_break],[lbreak]）。作者计划在未来的版本中开源更多情感控制的功能。几天前，我们还需要在本地和云端安装环境才能运行ChatTTS，玩法较为复杂。如今，陆续出现了在线网站和本地增强整合包。这里给大家介绍一下玩法，首先是网站：我们直接访问https://chattts.com/

节目介绍及投票

TTS用到了B站up"花儿不哭"大佬的开源项目gpt-sovits，只需1分钟的干声素材就可以实现惊艳的效果，甚至实现了zero-shot(零样本)，原理就是利用LLM(大语言模型)帮助声音模型进行预测推理。由于素材少，所以对质量的要求更高，最终呈现出的声音质感、语气、情感都与训练素材及参考音频息息相关。RVC则是将输入音频转换为训练的声音，也就是变声，对训练素材量级要求更高一些，最少也要20分钟的素材才能达到理想的效果，并且可以选择是否关联音高，来区分说话和唱歌两个不同的场景。这次的AI马季主要还是以gpt-sovits为主。要说不足嘛也有，比如单字和中英文混杂的词句效果还有很大进步空间，希望能和大家多交流找到更好的解决方案。”--金属文