Chat with Wiki - chatTTS

Answer

ChatTTS 是一个用于对话的生成式语音合成模型，具有以下特点：

优势：
- 真实度和自然度惊艳。
- 有更好的韵律，能生成接近真人音色的语气语调。
- 对中文支持良好，中英混合也没问题。
- 可进行细粒度控制，能预测和控制如笑声、停顿和插话等韵律特征。
- 能自然流畅地语音合成，支持多说话人，同时提供预训练模型。
劣势：
- 推理速度慢，无法应用在实时语音场景，离线场景需大量后期修正工作。
- 对于阿拉伯数字、标点符号，refine 后效果不佳。
- 有时会出现不稳定情况，自动删除或增加一些内容，读绕口令时有卡顿。

在参数设置方面，常调整的参数主要是 Seed（种子数），不同的 Seed 对应不同的声音，目前较火的 Seed 为 2222。此外，输入文本时，除文字本身和控制符号外，还可控制笑声、停顿等副语言现象。

在使用时，对于 30 秒的音频，需要 4G 的显存。整合包增加了音质增强、批量处理、长文本切分等功能，Mac 版本默认绑定 8080 窗口，推出应用后需执行“lsof -i:8080”得到程序的 PID 后 kill 程序，不然下一次启动会提示端口被占用。在输入文本准备生成时，可勾选音频增强和降噪进行进一步处理，增强后的音频会更清晰但处理时长会增加。生成的语音已达到“以假乱真”的程度，但为防止模型被用于诈骗等违法行为，作者在训练过程中添加了少量高频噪音，并压缩了音质。

Content generated by AI large model, please carefully verify (powered by aily)

References

卡尔：终于蹲到ChatTTS增强版整合包，AI视频配角们有了自己的声音～

大家好，我是卡尔的AI沃茨，热衷于折腾自己、分享好用工具。[终于蹲到ChatTTS增强版整合包，AI视频配角们有了自己的声音～](https://aiwarts101.feishu.cn/wiki/SW1mwZSNdi78jVkdq0QcKvwNnd1)ChatTTS，一个用于对话的生成式语音合成模型。语音界真的人才辈出，时不时给我们带来大惊喜，从之前的Bert-Sovit，到GPT-Sovits，再到现在一周飙升了1w+Star的ChatTTS，这些都说明了大家对声音合成技术的热爱和认可。今天，让我们一起来体验一下ChatTTS的神奇效果吧！参数设置：Audio Seed=42|Text Seed=42|其他设置保持默认输入文本：四川美食确实以辣闻名，但也有不辣的选择。比如甜水面、赖汤圆、蛋烘糕、叶儿粑等，这些小吃口味温和，甜而不腻，也很受欢迎。[ChatTTS样例1.wav](https://bytedance.feishu.cn/space/api/box/stream/download/all/Y8Q2b8TMYovuvmxIa0UcjQOlnke?allow_redirect=1)生成的语音已经达到了“以假乱真”的程度。更扯的是，为了限制ChatTTS生成的语音质量，作者在训练过程中添加了少量高频噪音，并压缩了音质，使其更容易分辨。这是为了防止模型被用于诈骗等违法行为。看来效果好到连作者自己都“害怕”了。除了刚刚听到的短短12秒音频外，ChatTTS还有哪些优势和不足呢？

卡尔：终于蹲到ChatTTS增强版整合包，AI视频配角们有了自己的声音～

除了文字本身和控制符号外，常调整的参数主要是Seed，也就是种子数。不同的Seed对应不同的声音。目前还没有看到有人收集好听的Seed列表，不过有一个2222比较火。输入文本2📕那chatTTS不仅能够生成自然流畅的语音[uv_break]，还能控制[laugh]笑声[laugh］,[uv_break]停顿啊和语气词啊等副语言现象[uv_break]。其这个韵律呢超越了许多开源模型。[ChatTTS控制停顿和笑声样例【网页端】.m4a](https://bytedance.feishu.cn/space/api/box/stream/download/all/QdHZbZCD4ob7rXxxuSicLRPfnKf?allow_redirect=1)线上体验下来，ChatTTS在功能上少了微调、长文本等模块，现阶段略显不足。不过，幸运的是我在B站找到了一个整合包，增加了音质增强、批量处理、长文本切分等功能，并制作了Mac和Windows版本。安装前说下显卡限制：对于30s的音频，需要4G的显存。整合包也存在需要优化的点，Mac版本默认绑定8080窗口，在你推出应用后，可以执行“lsof-i:8080”得到程序的PID后kill程序，不然下一次启动会设置端口被占用。首先试试增强音质，在我们输入文本准备生成时，可以勾选下面的音频增强和降噪进行进一步处理。增强后的音频会更加清晰减少的噪音，但会增加处理时长⏰[ChatTTS原声【本地端】.wav](https://bytedance.feishu.cn/space/api/box/stream/download/all/Dp5Mbp1A9oXhLUxnrx8c0IBSnmh?allow_redirect=1)

Stuart：一夜爆火的 ChatTTS 实测

作者：许键StuartChatTTS一夜爆火，极速出圈，3天就斩获9k的Star量，截止2024.06.03，已经16.6k的star，极速接近GPT-soVITs当天的26.2k的star数。到底有什么魔力让它火爆的速度直追它的前辈？优势：真实度和自然度很惊艳更好的韵律:能生成接近真人音色的语气语调这个TTS应该是目前对中文支持最好的了中英混合也没问题细粒度控制:能够预测和控制细粒度的韵律特征，如笑声、停顿和插话等自然流畅的语音合成，同时支持多说话人同时提供预训练模型劣势：当前推理速度慢，无法应用在实时语音场景。用在离线场景，需要大量的后期修正工作。对于阿拉伯数字，标点符号，refine后效果不太好有时候会出现不稳定，自动删除或者增加一些内容在句子里比如输入的内容是“你吃饭了没”，会莫名把句子改写一下变成了，“好吃，你吃饭了没”这种情况读绕口令也有人的那种卡顿（效果不稳定）