在 Linux 上本地部署 ChatTTS 的步骤如下:
效果试用方面:
在linux上部署很简单,比GPT-SoVITS更容易,不需要自己下载模型放模型。当然本地部署的前提,依旧是你有一张GPU显卡,4G以上显存。
简单步骤如下:1.下载代码仓库1.安装依赖(⚠️这里有两个依赖它没有放在requirements.txt里)1.启动webui的demo程序,然后用浏览器登陆这个服务器的ip:8080就能试玩了这个demo本身提供了3个参数:--server_name:服务器的ip地址,默认0.0.0.0--servic_port:即将开启的端口号--local_path:模型存储的本地路径1.第一次启动后生成语音时,需要看下控制台输出,它会下载一些模型文件,因此比较慢,而且可能因为网络的问题有各种失败。但是第一次加载成功了,后面就顺利了。2.基于这个基础已经可以开始拓展了,比如把它集成到agent的工具中去,比如结合chatgpt来做更拟人化的实时沟通。3.webui上可以设置的几个参数说明:(参考下图)text:指的是需要转换成语音的文字内容。Refine text:选择是否自动对输入的文本进行优化处理。Audio Seed:语音种子,这是一个数字参数,用于选择声音的类型,默认值为2,是一个很知性的女孩子的声音。Text Seed:文本种子,这是一个正整数参数,用于refine文本的停顿。实测文本的停顿设置会影响音色,音调。
先听一段效果,震惊来自本地部署模型的推理和语音效果:1.语音效果:2.效果确实很不错,接近真人语音语调。但是和GPT-SoVITS比起来并没有更惊艳,不过对比起来它用的更接近日常普通人的音色,可能会给人感觉更接近真实。对比参考:[Stuart:免费AI真人语音入门:GPT-SoVITS + Bert-VITS2](https://waytoagi.feishu.cn/wiki/StNuwZqh7iC2utkbxaNck9Gnn4e?from=from_copylink)3.运算速度:4.基于L4 GPU本地部署,22s的音频需要12s的推理时间。如果用4090,速度差不多是L4的2倍,也就是差不多需要6s左右。当然这个模型还没有做优化,如果做了优化,有希望在4090上只用2~3s推理时间。5.功能试玩:提供的功能很简单6.音色更换效果对比Audio seed:2; Text seed:42; input text:每个孩子是生下来就自带大模型的,他们天然有超强的数据处理能力。家庭教育是让孩子的大模型“本地化”。我们对孩子的教育,就是一种大模型的微调,最多起到10%的作用。我们要做的是顺势而为,让孩子的先天大模型发挥最好的作用。被refine后的文本变成了: