RVC 声音模型训练是将输入音频转换为训练的声音,即变声。它对训练素材量级要求较高,最少需要 20 分钟的素材才能达到理想效果,并且可以选择是否关联音高,以区分说话和唱歌两个不同场景。
在节目《马上封喉》中,负责马季老师语音生成部分的人员提到,AI 语音主要涉及 TTS(文本转语音)和 RVC 两项技术。此次的 AI 马季主要以 gpt-sovits 为主。
在 AI 春晚《西游不能停》的创作过程中,尝试了用 RVC 进行 vocal 变声的两种办法,但效果均不理想。第一种方法是训练声音模型后直接变声,存在变声后 AI 味儿太重、丢失原有强调的问题;第二种方法是训练声音模型,自己录 rap 后再变声,但需要在录音时尽量模仿还原出特点和感觉,这涉及到专业配音技巧,超出了能力范围。此外,八戒和沙僧声音的训练文件丢失,效果也不理想。
“天津是相声的故乡,天津人搞Al相声上AI春晚是当仁不让的。做为从小听相声长大的我们,对马三立、侯宝林、马季真是再熟悉不过了,用Al技术还原和创造他们的音容笑貌,关键在于制作三位已故艺术家的数字形象。为了能呈现出大师们的风采,我们首先利用了Midjourney的图像生成功能,初步塑造了其数字人的轮廓和体态。继而采用了AI换脸技术,对数字人像的五官进行了细致的调整和优化。最后再对图像进行了微调,确保数字人的形象既符合相声大师们的神韵,又具有独特的数字艺术风格。经过这一系列步骤,我们最终得到了现在看到的这版数字形象。超越时空,把三位大师的带来的欢乐做一番“虚拟升华”、使之在无限的数字世界中传播,是我们津门AI共学营的龙年之愿,感谢首届AI春晚的大舞台!”--阳光相遇“我在《马上封侯》中负责马季老师的语音生成部分。AI语音算是目前成熟度比较高的一个领域,《马上封侯》对目前的AI语音技术成果做了很好的一次展示,主要涉及两个技术:TTS(文本转语音)和RVC(基于vits的检索变声)。TTS用到了B站up"花儿不哭"大佬的开源项目gpt-sovits,只需1分钟的干声素材就可以实现惊艳的效果,甚至实现了zero-shot(零样本),原理就是利用LLM(大语言模型)帮助声音模型进行预测推理。由于素材少,所以对质量的要求更高,最终呈现出的声音质感、语气、情感都与训练素材及参考音频息息相关。RVC则是将输入音频转换为训练的声音,也就是变声,对训练素材量级要求更高一些,最少也要20分钟的素材才能达到理想的效果,并且可以选择是否关联音高,来区分说话和唱歌两个不同的场景。这次的AI马季主要还是以gpt-sovits为主。要说不足嘛也有,比如单字和中英文混杂的词句效果还有很大
前面提到,我最初的想法是用师徒四人的声音演绎这首歌的,但是用RVC浅尝了两种办法后,效果都不是很满意,最终考虑到deadline就干脆舍弃了。这里还是把“猴哥”和“唐僧”的部分放出来给大伙听听,就当小彩蛋吧。第一种方法,训练声音模型,然后直接变声。问题是变声后AI味儿太重,丢失了猴哥和唐僧的强调。[变声.mp3](https://bytedance.feishu.cn/space/api/box/stream/download/all/T4pqb30M5oKUU9x2XicciwaunXe?allow_redirect=1)第二种方法,训练声音模型,自己录rap,然后再变声。问题是需要我在录音的时候,尽量模仿还原出猴哥和唐僧的特点和感觉,这个涉及到专业的配音技巧,实在超出我的能力范围了....[录音+变声.mp3](https://bytedance.feishu.cn/space/api/box/stream/download/all/C7XbbRwIXodIGmxdu6UcO52cngd?allow_redirect=1)还有八戒和沙僧的声音我也训练了,但是文件丢失了,总之效果也不是很理想。