Chat with Wiki - 本地部署tts

Answer

在 Linux 上本地部署 ChatTTS 的步骤如下：

前提条件：需要有一张 4G 以上显存的 GPU 显卡。
具体步骤：
- 下载代码仓库。
- 安装依赖（注意有两个依赖未放在 requirements.txt 里）。
- 启动 webui 的 demo 程序，然后用浏览器登陆服务器的 ip:8080 就能试玩。
- 第一次启动后生成语音时，需要查看控制台输出，它会下载一些模型文件，因此比较慢，而且可能因网络问题有各种失败。但第一次加载成功后，后面就会顺利。
demo 提供的参数：
- --server_name：服务器的 IP 地址，默认 0.0.0.0。
- --servic_port：即将开启的端口号。
- --local_path：模型存储的本地路径。
webui 上可设置的参数：
- text：指需要转换成语音的文字内容。
- Refine text：选择是否自动对输入的文本进行优化处理。
- Audio Seed：语音种子，是一个数字参数，用于选择声音的类型，默认值为 2，是一个很知性的女孩子的声音。
- Text Seed：文本种子，是一个正整数参数，用于 refine 文本的停顿。实测文本的停顿设置会影响音色、音调。

效果试用方面：

语音效果：接近真人语音语调，用的更接近日常普通人的音色。
运算速度：基于 L4 GPU 本地部署，22s 的音频需要 12s 的推理时间。若用 4090，速度约为 L4 的 2 倍，即 6s 左右。模型未做优化，优化后有望在 4090 上只用 2 - 3s 推理时间。
功能试玩：提供的功能简单。
音色更换：可通过调整 Audio seed 和 Text seed 等参数实现。

Content generated by AI large model, please carefully verify (powered by aily)

References

Stuart：一夜爆火的 ChatTTS 实测

在linux上部署很简单，比GPT-SoVITS更容易，不需要自己下载模型放模型。当然本地部署的前提，依旧是你有一张GPU显卡，4G以上显存。

Stuart：一夜爆火的 ChatTTS 实测

简单步骤如下：1.下载代码仓库1.安装依赖（⚠️这里有两个依赖它没有放在requirements.txt里）1.启动webui的demo程序，然后用浏览器登陆这个服务器的ip:8080就能试玩了这个demo本身提供了3个参数：--server_name:服务器的ip地址，默认0.0.0.0--servic_port:即将开启的端口号--local_path:模型存储的本地路径1.第一次启动后生成语音时，需要看下控制台输出，它会下载一些模型文件，因此比较慢，而且可能因为网络的问题有各种失败。但是第一次加载成功了，后面就顺利了。2.基于这个基础已经可以开始拓展了，比如把它集成到agent的工具中去，比如结合chatgpt来做更拟人化的实时沟通。3.webui上可以设置的几个参数说明：（参考下图）text:指的是需要转换成语音的文字内容。Refine text:选择是否自动对输入的文本进行优化处理。Audio Seed:语音种子，这是一个数字参数，用于选择声音的类型，默认值为2，是一个很知性的女孩子的声音。Text Seed:文本种子，这是一个正整数参数，用于refine文本的停顿。实测文本的停顿设置会影响音色，音调。

Stuart：一夜爆火的 ChatTTS 实测

先听一段效果，震惊来自本地部署模型的推理和语音效果：1.语音效果：2.效果确实很不错，接近真人语音语调。但是和GPT-SoVITS比起来并没有更惊艳，不过对比起来它用的更接近日常普通人的音色，可能会给人感觉更接近真实。对比参考：[Stuart：免费AI真人语音入门：GPT-SoVITS + Bert-VITS2](https://waytoagi.feishu.cn/wiki/StNuwZqh7iC2utkbxaNck9Gnn4e?from=from_copylink)3.运算速度：4.基于L4 GPU本地部署，22s的音频需要12s的推理时间。如果用4090，速度差不多是L4的2倍，也就是差不多需要6s左右。当然这个模型还没有做优化，如果做了优化，有希望在4090上只用2～3s推理时间。5.功能试玩：提供的功能很简单6.音色更换效果对比Audio seed:2; Text seed:42; input text:每个孩子是生下来就自带大模型的，他们天然有超强的数据处理能力。家庭教育是让孩子的大模型“本地化”。我们对孩子的教育，就是一种大模型的微调，最多起到10%的作用。我们要做的是顺势而为，让孩子的先天大模型发挥最好的作用。被refine后的文本变成了：