知識ベースとの対話 - 目前最好的TTS是什么

回答

目前，ChatTTS 是备受关注的 TTS 之一。

其优势包括：

真实度和自然度很惊艳。
有更好的韵律，能生成接近真人音色的语气语调，对中文支持良好，中英混合也没问题。
能够预测和控制细粒度的韵律特征，如笑声、停顿和插话等。
自然流畅的语音合成，同时支持多说话人，还提供预训练模型。

然而，它也存在一些劣势：

当前推理速度慢，无法应用在实时语音场景。用在离线场景，需要大量的后期修正工作。
对于阿拉伯数字、标点符号，refine 后效果不太好。
有时候会出现不稳定，自动删除或者增加一些内容在句子里，比如输入的内容是“你吃饭了没”，会莫名把句子改写一下变成了，“好吃，你吃饭了没”这种情况。
读绕口令也有人的那种卡顿（效果不稳定）。

另外，XiaoHu.AI 也表现出色，支持跨语言配音、语音克隆、情感控制等，表现优于现有 TTS 系统，提供对语音生成的多样性和情感控制，并允许局部编辑，实时可控编辑，支持对特定语音片段进行修改或替换。您可以通过以下链接获取更多信息：

更多案例：https://xiaohu.ai/p/14995
GitHub：https://github.com/open-mmlab/Amphion/tree/main/models/tts/maskgct
论文：https://arxiv.org/pdf/2409.00750
在线体验：https://huggingface.co/spaces/amphion/maskgct
官方网站：https://voice.funnycp.com

PersonaTalk 也是字节跳动的 AI 配音模型。

AIモデルによって生成されたコンテンツであり、慎重に確認してください（提供元: aily）

参照

Stuart：一夜爆火的 ChatTTS 实测

作者：许键StuartChatTTS一夜爆火，极速出圈，3天就斩获9k的Star量，截止2024.06.03，已经16.6k的star，极速接近GPT-soVITs当天的26.2k的star数。到底有什么魔力让它火爆的速度直追它的前辈？优势：真实度和自然度很惊艳更好的韵律:能生成接近真人音色的语气语调这个TTS应该是目前对中文支持最好的了中英混合也没问题细粒度控制:能够预测和控制细粒度的韵律特征，如笑声、停顿和插话等自然流畅的语音合成，同时支持多说话人同时提供预训练模型劣势：当前推理速度慢，无法应用在实时语音场景。用在离线场景，需要大量的后期修正工作。对于阿拉伯数字，标点符号，refine后效果不太好有时候会出现不稳定，自动删除或者增加一些内容在句子里比如输入的内容是“你吃饭了没”，会莫名把句子改写一下变成了，“好吃，你吃饭了没”这种情况读绕口令也有人的那种卡顿（效果不稳定）

卡尔：终于蹲到ChatTTS增强版整合包，AI视频配角们有了自己的声音～

1.✅对话式TTS：ChatTTS针对对话式任务进行了优化，实现了自然流畅的语音合成，同时支持多说话人。2.✅细粒度控制：该模型能够预测和控制细粒度的韵律特征，包括笑声、停顿和插入词等。3.✅更好的韵律：ChatTTS在韵律方面超越了大部分开源TTS模型，并提供预训练模型。4.❌模型稳定性：自回归模型存在稳定性不足的问题，可能会出现声音突然变成其他人的声音，或者音质突然变差，可以通过多次尝试来寻找更好的音频效果。5.⭕️情感控制：目前发布的模型版本中，情感控制仅限于笑声（[laugh]）以及一些声音中断（[uv_break],[lbreak]）。作者计划在未来的版本中开源更多情感控制的功能。几天前，我们还需要在本地和云端安装环境才能运行ChatTTS，玩法较为复杂。如今，陆续出现了在线网站和本地增强整合包。这里给大家介绍一下玩法，首先是网站：我们直接访问https://chattts.com/在作者提供的样例中，中英文混合和语气停顿效果令人印象深刻。这里我用这两个例子教大家如何使用。输入文本1?这些元素其实是glam rock，然后加这种bling的感觉.我觉得像这个衣服有一些jacket,比如说那个oversized的那个丹宁的jacket,我觉得我是可以offduty的model.[ChatTTS中英混样例【网页端】.wav](https://bytedance.feishu.cn/space/api/box/stream/download/all/OVwsbemTDociUXxJ9vWcllhpn4c?allow_redirect=1)

XiaoHu.AI日报

支持跨语言配音、语音克隆、情感控制等，表现优于现有TTS系统。提供对语音生成的多样性和情感控制，并允许局部编辑。实时可控编辑，支持对特定语音片段进行修改或替换。?更多案例：[https://xiaohu.ai/p/14995](https://xiaohu.ai/p/14995)?GitHub：[https://github.com/open-mmlab/Amphion/tree/main/models/tts/maskgct](https://github.com/open-mmlab/Amphion/tree/main/models/tts/maskgct)?论文：[https://arxiv.org/pdf/2409.00750](https://arxiv.org/pdf/2409.00750)?在线体验：[https://huggingface.co/spaces/amphion/maskgct](https://huggingface.co/spaces/amphion/maskgct)?官方网站：[https://voice.funnycp.com](https://voice.funnycp.com)?[https://x.com/imxiaohu/status/1850405441618223158/video/1](https://x.com/imxiaohu/status/1850405441618223158/video/1)3⃣️?PersonaTalk：字节跳动的AI配音模型