以下为您推荐支持中文且能克隆自己声音的免费 TTS 公有模型站点:
需要注意的是,Stuart 模型存在一些问题:
GPT-SoVITS:只需1分钟语音即可训练一个自己的TTS模型。GPT-SoVITS是一个声音克隆和文本到语音转换的开源Python RAG框架。5秒数据就能模仿你,1分钟的声音数据就能训练出一个高质量的TTS模型,完美克隆你的声音!根据演示来看完美适配中文,应该是目前中文支持比较好的模型。界面也易用。主要特点:1、零样本TTS:输入5秒的声音样本即可体验即时的文本到语音转换。2、少量样本训练:只需1分钟的训练数据即可微调模型,提高声音相似度和真实感。模仿出来的声音会更加接近原声,听起来更自然。跨语言支持:支持与训练数据集不同语言的推理,目前支持英语、日语和中文。3、易于使用的界面:集成了声音伴奏分离、自动训练集分割、中文语音识别和文本标签等工具,帮助初学者更容易地创建训练数据集和GPT/SoVITS模型。4、适用于不同操作系统:项目可以在不同的操作系统上安装和运行,包括Windows。5、预训练模型:项目提供了一些已经训练好的模型,你可以直接下载使用。GitHub:[https://github.com/RVC-Boss/GPT-SoVITS](https://t.co/BpHX4SlsO3)[…](https://t.co/BpHX4SlsO3)视频教程:[https://bilibili.com/video/BV12g4y1m7Uw/](https://t.co/Uo7WtSSUGO)[…](https://t.co/Uo7WtSSUGO)[[twi]@小互(@_twi(1).mp4](https://bytedance.feishu.cn/space/api/box/stream/download/all/RymsbKdweody4Cxwtsqc7Yuenxd?allow_redirect=1)使用:
1.语音生成基本功能1.1.支持的语音时长不超过30s,超过30秒的需要特别修复。1.2.某些audio seed在念某些语句时会丢失一些语句。1.3.Refine过程中有些字会被丢失,比如“儿童节”在大概率会被refine成“童节”,丢失一个“儿”字。1.3.1.解决方法:跳过自动refine,以手动修改文本的方式来控制停顿。1.4.即使同一个audio seed,如果使用不同的语句分段方式,或者不同的text seed,生成的音色也不是很稳定,会给人感觉不是同一个人的声音。2.代码Bug:2.1.uv_break等提示词可能会在refine之后缺少[],甚至有时候在有中括号的情况下也会被念出来,听多了,容易被洗脑,不自觉的自己说话也念出uv break作为口头禅。(多听几遍,很有那种m3?的洗脑上头效果😂)[audio(10).wav](https://bytedance.feishu.cn/space/api/box/stream/download/all/UMT2bgjvjo1RIHxVg9PcODCnnGe?allow_redirect=1)3.没提供微调SFT的接口3.1.当然在底模已经提供的情况下,我们自己调用模型来做微调是可以的,但是项目本身没有提供相关的代码,对于大多数人来说,微调,或者说声音克隆就成了一个门槛。4.本模型特别申明:不支持商用,仅用于学术研究。4.1.⚠️在生成的语音内,作者加了听不见的噪音水印,可以很容易的被检测出来是他的模型生成的语音。ChatTTS还没放出训练代码无法自己克隆声音作者还只放出了4w小时训练的版本,确保这个模型的声音能被ai检测出来。作者还留着一个10w小时训练数据的版本
https://x.com/xiaohuggg/status/1747838869951910225?s=20 6⃣️🤖微软AutoGen Studio发布:-无代码平台,构建多功能AI代理。-提供编写代码、规划旅行、绘制股票图表等功能。🔗https://x.com/xiaohuggg/status/1747821655182000569?s=20 7⃣️🗣️GPT-SoVITS实现声音克隆:-1分钟语音训练个性化TTS模型。-支持中文,界面易用。🔗https://x.com/xiaohuggg/status/1747811318672007342?s=20 8⃣️🎥Motion新功能Video-to-Motion:-通过视频捕捉运动动作。-创建基于动作捕捉的角色视频。-提供FBX文件导出功能。[https://discord.gg/AapmuVJqxx](https://t.co/JjkC8N3rDE)🔗https://x.com/xiaohuggg/status/1747805383421472833?s=20