以下是一些适合客户端使用的 TTS 模型:
5⃣🎥Runway Gen-3 Alpha文本到视频模型已开放功能:所有人可使用传送门:https://runwayml.com/🔗详细使用教程:https://xiaohu.ai/p/10762🔗https://x.com/imxiaohu/status/18079171464309231166⃣📚腾讯翻译智能体公司上线了名称:TRANSAGENTS功能:文学翻译的多智能体虚拟翻译出版公司体验链接:http://transagents.ai🔗https://x.com/imxiaohu/status/18080669274259993547⃣🦊SuperAnimal:自动检测和分析动物运动行为的模型开发:由洛桑联邦理工学院(EPFL)团队开发功能:自动识别和跟踪45种以上动物的关键点运动,无需人工注释🔗https://x.com/imxiaohu/status/18081316326349455618⃣🎙Fish Speech:完美支持中英日语言的开源TTS模型语音处理:接近人类水平训练数据:约十五万小时三语数据,对中文支持完美开发者:fishaudio特点:亿级参数,高效轻量,可在个人设备上运行和微调,适合作为私人语音助手🔗详细介绍及更多演示:https://xiaohu.ai/p/10779🔗GitHub:https://github.com/fishaudio/fish-speech🔗https://x.com/imxiaohu/status/18081780063154384679⃣🎵Suno推出了iOS客户端
GPT-SoVITS:只需1分钟语音即可训练一个自己的TTS模型。GPT-SoVITS是一个声音克隆和文本到语音转换的开源Python RAG框架。5秒数据就能模仿你,1分钟的声音数据就能训练出一个高质量的TTS模型,完美克隆你的声音!根据演示来看完美适配中文,应该是目前中文支持比较好的模型。界面也易用。主要特点:1、零样本TTS:输入5秒的声音样本即可体验即时的文本到语音转换。2、少量样本训练:只需1分钟的训练数据即可微调模型,提高声音相似度和真实感。模仿出来的声音会更加接近原声,听起来更自然。跨语言支持:支持与训练数据集不同语言的推理,目前支持英语、日语和中文。3、易于使用的界面:集成了声音伴奏分离、自动训练集分割、中文语音识别和文本标签等工具,帮助初学者更容易地创建训练数据集和GPT/SoVITS模型。4、适用于不同操作系统:项目可以在不同的操作系统上安装和运行,包括Windows。5、预训练模型:项目提供了一些已经训练好的模型,你可以直接下载使用。GitHub:[https://github.com/RVC-Boss/GPT-SoVITS](https://t.co/BpHX4SlsO3)[…](https://t.co/BpHX4SlsO3)视频教程:[https://bilibili.com/video/BV12g4y1m7Uw/](https://t.co/Uo7WtSSUGO)[…](https://t.co/Uo7WtSSUGO)[[twi]@小互(@_twi(1).mp4](https://bytedance.feishu.cn/space/api/box/stream/download/all/RymsbKdweody4Cxwtsqc7Yuenxd?allow_redirect=1)使用:
进入这个地址,开通服务:https://console.volcengine.com/tos/bucket?添加名字,选择任意区域之后,直接点击创建即可。创建完成后,复制你的桶名称,我这里是:ai-app-lab这个就是TOS_BUCKET了。2.3获取VOLC_ACCESSKEY、VOLC_SECRETKEY点击这个链接,直接跳转:https://console.volcengine.com/iam/keymanage/2.4获取TTS_ACCESS_TOKEN、TTS_APP_ID这个KEY比较特殊,需要有企业的认证。(可以试一下个人认证)如果你有企业或者可以找到朋友给你使用,可以按照以下方式获取key。如果你没有,那你可以在后台私信发送“TTS”,我临时提供一个给大家去玩。(Eqiity AI公众号后台回复“TTS”)(1)企业认证https://console.volcengine.com/user/authentication/detail/(2)开通语音技术产品https://console.volcengine.com/speech/app(3)创建应用,开通对应的产品和功能https://console.volcengine.com/speech/app(3.1)勾选大模型语音合成和流式语音识别大模型(3.2)开通语音合成大模型,注意:语音合成大模型从开通到可以使用有大概5-10分钟延迟(3.3)流式语音识别大模型有试用包,可以不开通。如需提供稳定服务,建议开通正式版本。