Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

chatTTS

Answer

ChatTTS 是一个用于对话的生成式语音合成模型,具有以下特点:

  • 优势:
    • 真实度和自然度惊艳。
    • 有更好的韵律,能生成接近真人音色的语气语调。
    • 对中文支持良好,中英混合也没问题。
    • 可进行细粒度控制,能预测和控制如笑声、停顿和插话等韵律特征。
    • 能自然流畅地语音合成,支持多说话人,同时提供预训练模型。
  • 劣势:
    • 推理速度慢,无法应用在实时语音场景,离线场景需大量后期修正工作。
    • 对于阿拉伯数字、标点符号,refine 后效果不佳。
    • 有时会出现不稳定情况,自动删除或增加一些内容,读绕口令时有卡顿。

在参数设置方面,常调整的参数主要是 Seed(种子数),不同的 Seed 对应不同的声音,目前较火的 Seed 为 2222。此外,输入文本时,除文字本身和控制符号外,还可控制笑声、停顿等副语言现象。

在使用时,对于 30 秒的音频,需要 4G 的显存。整合包增加了音质增强、批量处理、长文本切分等功能,Mac 版本默认绑定 8080 窗口,推出应用后需执行“lsof -i:8080”得到程序的 PID 后 kill 程序,不然下一次启动会提示端口被占用。在输入文本准备生成时,可勾选音频增强和降噪进行进一步处理,增强后的音频会更清晰但处理时长会增加。生成的语音已达到“以假乱真”的程度,但为防止模型被用于诈骗等违法行为,作者在训练过程中添加了少量高频噪音,并压缩了音质。

Content generated by AI large model, please carefully verify (powered by aily)

References

卡尔:终于蹲到ChatTTS增强版整合包,AI视频配角们有了自己的声音~

大家好,我是卡尔的AI沃茨,热衷于折腾自己、分享好用工具。[终于蹲到ChatTTS增强版整合包,AI视频配角们有了自己的声音~](https://aiwarts101.feishu.cn/wiki/SW1mwZSNdi78jVkdq0QcKvwNnd1)ChatTTS,一个用于对话的生成式语音合成模型。语音界真的人才辈出,时不时给我们带来大惊喜,从之前的Bert-Sovit,到GPT-Sovits,再到现在一周飙升了1w+Star的ChatTTS,这些都说明了大家对声音合成技术的热爱和认可。今天,让我们一起来体验一下ChatTTS的神奇效果吧!参数设置:Audio Seed=42|Text Seed=42|其他设置保持默认输入文本:四川美食确实以辣闻名,但也有不辣的选择。比如甜水面、赖汤圆、蛋烘糕、叶儿粑等,这些小吃口味温和,甜而不腻,也很受欢迎。[ChatTTS样例1.wav](https://bytedance.feishu.cn/space/api/box/stream/download/all/Y8Q2b8TMYovuvmxIa0UcjQOlnke?allow_redirect=1)生成的语音已经达到了“以假乱真”的程度。更扯的是,为了限制ChatTTS生成的语音质量,作者在训练过程中添加了少量高频噪音,并压缩了音质,使其更容易分辨。这是为了防止模型被用于诈骗等违法行为。看来效果好到连作者自己都“害怕”了。除了刚刚听到的短短12秒音频外,ChatTTS还有哪些优势和不足呢?

卡尔:终于蹲到ChatTTS增强版整合包,AI视频配角们有了自己的声音~

除了文字本身和控制符号外,常调整的参数主要是Seed,也就是种子数。不同的Seed对应不同的声音。目前还没有看到有人收集好听的Seed列表,不过有一个2222比较火。输入文本2📕那chatTTS不仅能够生成自然流畅的语音[uv_break],还能控制[laugh]笑声[laugh],[uv_break]停顿啊和语气词啊等副语言现象[uv_break]。其这个韵律呢超越了许多开源模型。[ChatTTS控制停顿和笑声样例【网页端】.m4a](https://bytedance.feishu.cn/space/api/box/stream/download/all/QdHZbZCD4ob7rXxxuSicLRPfnKf?allow_redirect=1)线上体验下来,ChatTTS在功能上少了微调、长文本等模块,现阶段略显不足。不过,幸运的是我在B站找到了一个整合包,增加了音质增强、批量处理、长文本切分等功能,并制作了Mac和Windows版本。安装前说下显卡限制:对于30s的音频,需要4G的显存。整合包也存在需要优化的点,Mac版本默认绑定8080窗口,在你推出应用后,可以执行“lsof-i:8080”得到程序的PID后kill程序,不然下一次启动会设置端口被占用。首先试试增强音质,在我们输入文本准备生成时,可以勾选下面的音频增强和降噪进行进一步处理。增强后的音频会更加清晰减少的噪音,但会增加处理时长⏰[ChatTTS原声【本地端】.wav](https://bytedance.feishu.cn/space/api/box/stream/download/all/Dp5Mbp1A9oXhLUxnrx8c0IBSnmh?allow_redirect=1)

Stuart:一夜爆火的 ChatTTS 实测

作者:许键StuartChatTTS一夜爆火,极速出圈,3天就斩获9k的Star量,截止2024.06.03,已经16.6k的star,极速接近GPT-soVITs当天的26.2k的star数。到底有什么魔力让它火爆的速度直追它的前辈?优势:真实度和自然度很惊艳更好的韵律:能生成接近真人音色的语气语调这个TTS应该是目前对中文支持最好的了中英混合也没问题细粒度控制:能够预测和控制细粒度的韵律特征,如笑声、停顿和插话等自然流畅的语音合成,同时支持多说话人同时提供预训练模型劣势:当前推理速度慢,无法应用在实时语音场景。用在离线场景,需要大量的后期修正工作。对于阿拉伯数字,标点符号,refine后效果不太好有时候会出现不稳定,自动删除或者增加一些内容在句子里比如输入的内容是“你吃饭了没”,会莫名把句子改写一下变成了,“好吃,你吃饭了没”这种情况读绕口令也有人的那种卡顿(效果不稳定)