以下是关于 AI 变声的相关内容:
实时变声方面:
语言声音 AI 模型方面:
在 AI 春晚《西游不能停》创作过程中,关于 vocal 变声:
实时变声的sovits一键包!基于sovits4.0一键包2.0链接:https://share.weiyun.com/Afv83T5j密码:INT-16链接:https://pan.baidu.com/s/1Vx0BnpkmPIRziQtORFv-Jg?pwd=INT8提取码:INT8不需要安装python和cuda,双击运行Hugging face可以直接测试的模型https://huggingface.co/spaces/akhaliq/Real-Time-Voice-Cloning达摩院的产品,可以在线测试https://modelscope.cn/studios/damo/personal_tts/summary软件界面,支持加载各种VC(它使用各种语音转换AI(VC,Voice Conversion)为客户进行实时语音转换)https://github.com/w-okada/voice-changer[heading2]语言声音AI模型[content]使用AI的实时语音转换器(Trainer)https://github.com/isletennos/MMVC_TrainerAI孙燕姿音色训练svchttps://github.com/svc-develop-team/so-vits-svc基于检索的语音转换WebUI,一基为VITS简单易用的语言转换器(语音转换器)框架https://github.com/liujing04/Retrieval-based-Voice-Conversion-WebUI基于DDSP(可微分数字信号处理)的实时端到端歌声转换系统https://github.com/yxlllc/DDSP-SVC浅扩散模型(DDSP+Diff-SVC重构版)
这里我想聊聊效果不好的原因,玩过sovits、RVC的小伙伴应该知道,变声效果完全取决于训练素材。去年AI孙燕姿之所以效果那么好,能惊艳到大家,也是因为训练了大量孙燕姿的歌曲,涵盖了不同音域、不同曲风的干声。而我收集的西游记素材全部来自86版电视剧,只有师徒四人说话的声音,没有他们唱歌或说唱的素材,所以就不太像。如果当时AI孙燕姿唱的是周杰伦的双节棍,大家也不会觉得很像,因为孙燕姿没有唱过类似的歌,不符合大家对孙燕姿歌声的固有印象。不过《西游不能停》还是用到了一点AI变声技术的,比如前面提到的修音,还有outro那里如来佛祖的声音。算是最后的倔强吧?。对了顺便提一句,如来这里的台词本来是想致敬“黑神话悟空”的,不过好像大家都没get到?[00_01_59-00_02_04.mp4](https://bytedance.feishu.cn/space/api/box/stream/download/all/VenCbv11Zo7oyzxWn0FcZAw7nyc?allow_redirect=1)[392402545-1-208 00_10_44-00_11_07.mp4](https://bytedance.feishu.cn/space/api/box/stream/download/all/FsNFbxMgFoBr6Ux8k9ocaGVfn4f?allow_redirect=1)
前面提到,我最初的想法是用师徒四人的声音演绎这首歌的,但是用RVC浅尝了两种办法后,效果都不是很满意,最终考虑到deadline就干脆舍弃了。这里还是把“猴哥”和“唐僧”的部分放出来给大伙听听,就当小彩蛋吧。第一种方法,训练声音模型,然后直接变声。问题是变声后AI味儿太重,丢失了猴哥和唐僧的强调。[变声.mp3](https://bytedance.feishu.cn/space/api/box/stream/download/all/T4pqb30M5oKUU9x2XicciwaunXe?allow_redirect=1)第二种方法,训练声音模型,自己录rap,然后再变声。问题是需要我在录音的时候,尽量模仿还原出猴哥和唐僧的特点和感觉,这个涉及到专业的配音技巧,实在超出我的能力范围了....[录音+变声.mp3](https://bytedance.feishu.cn/space/api/box/stream/download/all/C7XbbRwIXodIGmxdu6UcO52cngd?allow_redirect=1)还有八戒和沙僧的声音我也训练了,但是文件丢失了,总之效果也不是很理想。