目前,ChatTTS 是备受关注的 TTS 之一。
其优势包括:
然而,它也存在一些劣势:
另外,XiaoHu.AI 也表现出色,支持跨语言配音、语音克隆、情感控制等,表现优于现有 TTS 系统,提供对语音生成的多样性和情感控制,并允许局部编辑,实时可控编辑,支持对特定语音片段进行修改或替换。您可以通过以下链接获取更多信息:
PersonaTalk 也是字节跳动的 AI 配音模型。
作者:许键StuartChatTTS一夜爆火,极速出圈,3天就斩获9k的Star量,截止2024.06.03,已经16.6k的star,极速接近GPT-soVITs当天的26.2k的star数。到底有什么魔力让它火爆的速度直追它的前辈?优势:真实度和自然度很惊艳更好的韵律:能生成接近真人音色的语气语调这个TTS应该是目前对中文支持最好的了中英混合也没问题细粒度控制:能够预测和控制细粒度的韵律特征,如笑声、停顿和插话等自然流畅的语音合成,同时支持多说话人同时提供预训练模型劣势:当前推理速度慢,无法应用在实时语音场景。用在离线场景,需要大量的后期修正工作。对于阿拉伯数字,标点符号,refine后效果不太好有时候会出现不稳定,自动删除或者增加一些内容在句子里比如输入的内容是“你吃饭了没”,会莫名把句子改写一下变成了,“好吃,你吃饭了没”这种情况读绕口令也有人的那种卡顿(效果不稳定)
1.✅对话式TTS:ChatTTS针对对话式任务进行了优化,实现了自然流畅的语音合成,同时支持多说话人。2.✅细粒度控制:该模型能够预测和控制细粒度的韵律特征,包括笑声、停顿和插入词等。3.✅更好的韵律:ChatTTS在韵律方面超越了大部分开源TTS模型,并提供预训练模型。4.❌模型稳定性:自回归模型存在稳定性不足的问题,可能会出现声音突然变成其他人的声音,或者音质突然变差,可以通过多次尝试来寻找更好的音频效果。5.⭕️情感控制:目前发布的模型版本中,情感控制仅限于笑声([laugh])以及一些声音中断([uv_break],[lbreak])。作者计划在未来的版本中开源更多情感控制的功能。几天前,我们还需要在本地和云端安装环境才能运行ChatTTS,玩法较为复杂。如今,陆续出现了在线网站和本地增强整合包。这里给大家介绍一下玩法,首先是网站:我们直接访问https://chattts.com/在作者提供的样例中,中英文混合和语气停顿效果令人印象深刻。这里我用这两个例子教大家如何使用。输入文本1📕这些元素其实是glam rock,然后加这种bling的感觉.我觉得像这个衣服有一些jacket,比如说那个oversized的那个丹宁的jacket,我觉得我是可以offduty的model.[ChatTTS中英混样例【网页端】.wav](https://bytedance.feishu.cn/space/api/box/stream/download/all/OVwsbemTDociUXxJ9vWcllhpn4c?allow_redirect=1)
支持跨语言配音、语音克隆、情感控制等,表现优于现有TTS系统。提供对语音生成的多样性和情感控制,并允许局部编辑。实时可控编辑,支持对特定语音片段进行修改或替换。🔗更多案例:[https://xiaohu.ai/p/14995](https://xiaohu.ai/p/14995)🔗GitHub:[https://github.com/open-mmlab/Amphion/tree/main/models/tts/maskgct](https://github.com/open-mmlab/Amphion/tree/main/models/tts/maskgct)🔗论文:[https://arxiv.org/pdf/2409.00750](https://arxiv.org/pdf/2409.00750)🔗在线体验:[https://huggingface.co/spaces/amphion/maskgct](https://huggingface.co/spaces/amphion/maskgct)🔗官方网站:[https://voice.funnycp.com](https://voice.funnycp.com)🔗[https://x.com/imxiaohu/status/1850405441618223158/video/1](https://x.com/imxiaohu/status/1850405441618223158/video/1)3⃣️🎬PersonaTalk:字节跳动的AI配音模型