与知识库对话 - RVC声音模型训练

回答

RVC 声音模型训练是将输入音频转换为训练的声音，即变声。它对训练素材量级要求较高，最少需要 20 分钟的素材才能达到理想效果，并且可以选择是否关联音高，以区分说话和唱歌两个不同场景。

在节目《马上封喉》中，负责马季老师语音生成部分的人员提到，AI 语音主要涉及 TTS（文本转语音）和 RVC 两项技术。此次的 AI 马季主要以 gpt-sovits 为主。

在 AI 春晚《西游不能停》的创作过程中，尝试了用 RVC 进行 vocal 变声的两种办法，但效果均不理想。第一种方法是训练声音模型后直接变声，存在变声后 AI 味儿太重、丢失原有强调的问题；第二种方法是训练声音模型，自己录 rap 后再变声，但需要在录音时尽量模仿还原出特点和感觉，这涉及到专业配音技巧，超出了能力范围。此外，八戒和沙僧声音的训练文件丢失，效果也不理想。

内容由 AI 大模型生成，请仔细甄别（powered by aily）

参考资料

节目介绍及投票

“天津是相声的故乡,天津人搞Al相声上AI春晚是当仁不让的。做为从小听相声长大的我们,对马三立、侯宝林、马季真是再熟悉不过了,用Al技术还原和创造他们的音容笑貌,关键在于制作三位已故艺术家的数字形象。为了能呈现出大师们的风采,我们首先利用了Midjourney的图像生成功能,初步塑造了其数字人的轮廓和体态。继而采用了AI换脸技术,对数字人像的五官进行了细致的调整和优化。最后再对图像进行了微调,确保数字人的形象既符合相声大师们的神韵,又具有独特的数字艺术风格。经过这一系列步骤,我们最终得到了现在看到的这版数字形象。超越时空,把三位大师的带来的欢乐做一番“虚拟升华”、使之在无限的数字世界中传播,是我们津门AI共学营的龙年之愿,感谢首届AI春晚的大舞台!”--阳光相遇“我在《马上封侯》中负责马季老师的语音生成部分。AI语音算是目前成熟度比较高的一个领域,《马上封侯》对目前的AI语音技术成果做了很好的一次展示,主要涉及两个技术:TTS(文本转语音)和RVC(基于vits的检索变声)。TTS用到了B站up"花儿不哭"大佬的开源项目gpt-sovits,只需1分钟的干声素材就可以实现惊艳的效果,甚至实现了zero-shot(零样本),原理就是利用LLM(大语言模型)帮助声音模型进行预测推理。由于素材少,所以对质量的要求更高,最终呈现出的声音质感、语气、情感都与训练素材及参考音频息息相关。RVC则是将输入音频转换为训练的声音,也就是变声,对训练素材量级要求更高一些,最少也要20分钟的素材才能达到理想的效果,并且可以选择是否关联音高,来区分说话和唱歌两个不同的场景。这次的AI马季主要还是以gpt-sovits为主。要说不足嘛也有,比如单字和中英文混杂的词句效果还有很大

金属文：AI春晚《西游不能停》创作过程分享

前面提到，我最初的想法是用师徒四人的声音演绎这首歌的，但是用RVC浅尝了两种办法后，效果都不是很满意，最终考虑到deadline就干脆舍弃了。这里还是把“猴哥”和“唐僧”的部分放出来给大伙听听，就当小彩蛋吧。第一种方法，训练声音模型，然后直接变声。问题是变声后AI味儿太重，丢失了猴哥和唐僧的强调。[变声.mp3](https://bytedance.feishu.cn/space/api/box/stream/download/all/T4pqb30M5oKUU9x2XicciwaunXe?allow_redirect=1)第二种方法，训练声音模型，自己录rap，然后再变声。问题是需要我在录音的时候，尽量模仿还原出猴哥和唐僧的特点和感觉，这个涉及到专业的配音技巧，实在超出我的能力范围了....[录音+变声.mp3](https://bytedance.feishu.cn/space/api/box/stream/download/all/C7XbbRwIXodIGmxdu6UcO52cngd?allow_redirect=1)还有八戒和沙僧的声音我也训练了，但是文件丢失了，总之效果也不是很理想。