chat tts-WayToAGI

回答

以下是关于 ChatTTS 的详细介绍：

在作者提供的样例中，中英文混合和语气停顿效果令人印象深刻。常调整的参数主要是 Seed，不同的 Seed 对应不同的声音，目前较火的 Seed 为 2222。
线上体验下来，ChatTTS 在功能上少了微调、长文本等模块。但在 B 站有一个整合包，增加了音质增强、批量处理、长文本切分等功能，并制作了 Mac 和 Windows 版本。安装前需注意显卡限制，对于 30s 的音频，需要 4G 的显存。Mac 版本默认绑定 8080 窗口，推出应用后需执行相关操作避免端口占用。
增强版整合包的使用：首先可试试增强音质，输入文本准备生成时，可勾选音频增强和降噪进一步处理。文本内容很多时，可勾选文本切割处理，默认为五十字符切割，还能将音频片段合并为一整段音频，切割的音频片段也支持增强处理。保存后的音频文件结构清晰，包括 concatenated Audio（合成的一整段音频）、Enhanced Audio（增强处理后的整段音频）、Audio clip 文件夹（切分的音频片段，Enhanced 开头的是增强处理的音频片段，不带 Enhanced 是普通音频片段）。该版本还增加了批量处理功能，勾选后可上传按每句换行格式的 TXT 文本。最后是音色固定，可通过点击随机按钮多尝试找到满意音色，并保存设置和音色种子到配置文件方便下次使用。
ChatTTS 的特点：
- 针对对话式任务进行了优化，实现自然流畅的语音合成，同时支持多说话人。
- 能够预测和控制细粒度的韵律特征，包括笑声、停顿和插入词等。
- 在韵律方面超越了大部分开源 TTS 模型，并提供预训练模型。
- 存在自回归模型稳定性不足的问题，可能出现声音突然变化或音质变差，可多次尝试寻找更好的音频效果。
- 目前发布的模型版本中，情感控制仅限于笑声（[laugh]）以及一些声音中断（[uv_break],[lbreak]），作者计划在未来的版本中开源更多情感控制功能。
玩法：几天前运行 ChatTTS 玩法复杂，需在本地和云端安装环境。如今有在线网站（https://chattts.com/）和本地增强整合包。

内容由 AI 大模型生成，请仔细甄别（powered by aily）

参考资料

在作者提供的样例中，中英文混合和语气停顿效果令人印象深刻。这里我用这两个例子教大家如何使用。输入文本1📕这些元素其实是glam rock，然后加这种bling的感觉.我觉得像这个衣服有一些jacket,比如说那个oversized的那个丹宁的jacket,我觉得我是可以offduty的model.除了文字本身和控制符号外，常调整的参数主要是Seed，也就是种子数。不同的Seed对应不同的声音。目前还没有看到有人收集好听的Seed列表，不过有一个2222比较火。输入文本2📕那chatTTS不仅能够生成自然流畅的语音[uv_break]，还能控制[laugh]笑声[laugh］,[uv_break]停顿啊和语气词啊等副语言现象[uv_break]。其这个韵律呢超越了许多开源模型。线上体验下来，ChatTTS在功能上少了微调、长文本等模块，现阶段略显不足。不过，幸运的是我在B站找到了一个整合包，增加了音质增强、批量处理、长文本切分等功能，并制作了Mac和Windows版本。安装前说下显卡限制：对于30s的音频，需要4G的显存。整合包也存在需要优化的点，Mac版本默认绑定8080窗口，在你推出应用后，可以执行“lsof - i:8080”得到程序的PID后kill程序，不然下一次启动会设置端口被占用。

卡尔：终于蹲到ChatTTS增强版整合包，AI视频配角们有了自己的声音～

首先试试增强音质，在我们输入文本准备生成时，可以勾选下面的音频增强和降噪进行进一步处理。增强后的音频会更加清晰减少的噪音，但会增加处理时长⏰其次，当文本内容很多时,可以勾选文本切割来进行处理，默认为五十字符进行切割，还可以将音频片段合并为一整段音频，切割的音频片段也支持增强处理保存后的音频文件结构相当清晰，concatenated Audio是合成的一整段音频，Enhanced Audio是增强处理后的整段音频Audio clip文件夹中是切分的音频片段。Enhanced开头的就是增强处理的音频片段，不带Enhanced就是生成的普通的音频片段。该个版本还增加了批量处理功能，勾选后可以上传一个TXT文本，TXT文本需要按照每句换行的格式。最后就是音色固定，前面提到这个项目不同的音频种子生成的人物说话音色会不一样。我们可以点击随机按钮，多尝试几次，找到自己满意的音色后，可以将设置和音色种子保存到配置文件中，方便下次使用。ChatTTS刚放出来的时候，我很惊讶于它的效果，随后就重新思考，基于目前只能随机音色的情况，它在AI配音领域会有什么样的应用呢？本来是打算等到它后面提供微调版本，再给大家出一篇教程来复刻名人声音。

卡尔：终于蹲到ChatTTS增强版整合包，AI视频配角们有了自己的声音～

1.✅对话式TTS：ChatTTS针对对话式任务进行了优化，实现了自然流畅的语音合成，同时支持多说话人。2.✅细粒度控制：该模型能够预测和控制细粒度的韵律特征，包括笑声、停顿和插入词等。3.✅更好的韵律：ChatTTS在韵律方面超越了大部分开源TTS模型，并提供预训练模型。4.❌模型稳定性：自回归模型存在稳定性不足的问题，可能会出现声音突然变成其他人的声音，或者音质突然变差，可以通过多次尝试来寻找更好的音频效果。5.⭕️情感控制：目前发布的模型版本中，情感控制仅限于笑声（[laugh]）以及一些声音中断（[uv_break],[lbreak]）。作者计划在未来的版本中开源更多情感控制的功能。几天前，我们还需要在本地和云端安装环境才能运行ChatTTS，玩法较为复杂。如今，陆续出现了在线网站和本地增强整合包。这里给大家介绍一下玩法，首先是网站：我们直接访问https://chattts.com/