Chat with Wiki - 推荐免费的tts公有模型站点，需要支持中文，克隆自己的声音

Answer

以下为您推荐支持中文且能克隆自己声音的免费 TTS 公有模型站点：

GPT-SoVITS：
- 只需 1 分钟语音即可训练一个自己的 TTS 模型。
- 5 秒数据就能模仿您，1 分钟的声音数据就能训练出一个高质量的 TTS 模型，完美克隆您的声音，且适配中文，界面易用。
- 主要特点：
  - 零样本 TTS：输入 5 秒的声音样本即可体验即时的文本到语音转换。
  - 少量样本训练：只需 1 分钟的训练数据即可微调模型，提高声音相似度和真实感。模仿出来的声音会更加接近原声，听起来更自然。
  - 跨语言支持：支持与训练数据集不同语言的推理，目前支持英语、日语和中文。
  - 易于使用的界面：集成了声音伴奏分离、自动训练集分割、中文语音识别和文本标签等工具，帮助初学者更容易地创建训练数据集和 GPT/SoVITS 模型。
  - 适用于不同操作系统：项目可以在不同的操作系统上安装和运行，包括 Windows。
  - 预训练模型：项目提供了一些已经训练好的模型，您可以直接下载使用。
- GitHub：https://github.com/RVC-Boss/GPT-SoVITS
- 视频教程：https://bilibili.com/video/BV12g4y1m7Uw/

需要注意的是，Stuart 模型存在一些问题：

语音生成基本功能方面：
- 支持的语音时长不超过 30 秒，超过 30 秒的需要特别修复。
- 某些 audio seed 在念某些语句时会丢失一些语句。
- Refine 过程中有些字会被丢失，比如“儿童节”在大概率会被 refine 成“童节”，丢失一个“儿”字。解决方法是跳过自动 refine，以手动修改文本的方式来控制停顿。
- 即使同一个 audio seed，如果使用不同的语句分段方式，或者不同的 text seed，生成的音色也不是很稳定，会给人感觉不是同一个人的声音。
代码 Bug：
- uv_break 等提示词可能会在 refine 之后缺少[]，甚至有时候在有中括号的情况下也会被念出来。
没提供微调 SFT 的接口。
本模型特别申明：不支持商用，仅用于学术研究。在生成的语音内，作者加了听不见的噪音水印，可以很容易的被检测出来是他的模型生成的语音。ChatTTS 还没放出训练代码无法自己克隆声音，作者还只放出了 4w 小时训练的版本，确保这个模型的声音能被 AI 检测出来。作者还留着一个 10w 小时训练数据的版本。

Content generated by AI large model, please carefully verify (powered by aily)

References

GPT-SoVITS：只需1分钟语音即可训练一个自己的TTS模型。GPT-SoVITS是一个声音克隆和文本到语音转换的开源Python RAG框架。5秒数据就能模仿你，1分钟的声音数据就能训练出一个高质量的TTS模型，完美克隆你的声音！根据演示来看完美适配中文，应该是目前中文支持比较好的模型。界面也易用。主要特点：1、零样本TTS：输入5秒的声音样本即可体验即时的文本到语音转换。2、少量样本训练：只需1分钟的训练数据即可微调模型，提高声音相似度和真实感。模仿出来的声音会更加接近原声，听起来更自然。跨语言支持：支持与训练数据集不同语言的推理，目前支持英语、日语和中文。3、易于使用的界面：集成了声音伴奏分离、自动训练集分割、中文语音识别和文本标签等工具，帮助初学者更容易地创建训练数据集和GPT/SoVITS模型。4、适用于不同操作系统：项目可以在不同的操作系统上安装和运行，包括Windows。5、预训练模型：项目提供了一些已经训练好的模型，你可以直接下载使用。GitHub：[https://github.com/RVC-Boss/GPT-SoVITS](https://t.co/BpHX4SlsO3)[…](https://t.co/BpHX4SlsO3)视频教程：[https://bilibili.com/video/BV12g4y1m7Uw/](https://t.co/Uo7WtSSUGO)[…](https://t.co/Uo7WtSSUGO)[[twi]@小互(@_twi(1).mp4](https://bytedance.feishu.cn/space/api/box/stream/download/all/RymsbKdweody4Cxwtsqc7Yuenxd?allow_redirect=1)使用：

Stuart：一夜爆火的 ChatTTS 实测

1.语音生成基本功能1.1.支持的语音时长不超过30s，超过30秒的需要特别修复。1.2.某些audio seed在念某些语句时会丢失一些语句。1.3.Refine过程中有些字会被丢失，比如“儿童节”在大概率会被refine成“童节”，丢失一个“儿”字。1.3.1.解决方法：跳过自动refine，以手动修改文本的方式来控制停顿。1.4.即使同一个audio seed，如果使用不同的语句分段方式，或者不同的text seed，生成的音色也不是很稳定，会给人感觉不是同一个人的声音。2.代码Bug:2.1.uv_break等提示词可能会在refine之后缺少[]，甚至有时候在有中括号的情况下也会被念出来，听多了，容易被洗脑，不自觉的自己说话也念出uv break作为口头禅。（多听几遍，很有那种m3？的洗脑上头效果?）[audio(10).wav](https://bytedance.feishu.cn/space/api/box/stream/download/all/UMT2bgjvjo1RIHxVg9PcODCnnGe?allow_redirect=1)3.没提供微调SFT的接口3.1.当然在底模已经提供的情况下，我们自己调用模型来做微调是可以的，但是项目本身没有提供相关的代码，对于大多数人来说，微调，或者说声音克隆就成了一个门槛。4.本模型特别申明：不支持商用，仅用于学术研究。4.1.⚠️在生成的语音内，作者加了听不见的噪音水印，可以很容易的被检测出来是他的模型生成的语音。ChatTTS还没放出训练代码无法自己克隆声音作者还只放出了4w小时训练的版本，确保这个模型的声音能被ai检测出来。作者还留着一个10w小时训练数据的版本

XiaoHu.AI日报

https://x.com/xiaohuggg/status/1747838869951910225?s=20 6⃣️?微软AutoGen Studio发布：-无代码平台，构建多功能AI代理。-提供编写代码、规划旅行、绘制股票图表等功能。?https://x.com/xiaohuggg/status/1747821655182000569?s=20 7⃣️?️GPT-SoVITS实现声音克隆：-1分钟语音训练个性化TTS模型。-支持中文，界面易用。?https://x.com/xiaohuggg/status/1747811318672007342?s=20 8⃣️?Motion新功能Video-to-Motion：-通过视频捕捉运动动作。-创建基于动作捕捉的角色视频。-提供FBX文件导出功能。[https://discord.gg/AapmuVJqxx](https://t.co/JjkC8N3rDE)?https://x.com/xiaohuggg/status/1747805383421472833?s=20