Chat with Wiki - 声音克隆

Answer

GPT-SoVITS 是一个用于声音克隆和文本到语音转换的开源 Python RAG 框架，具有以下特点和使用方法：

特点：
- 零样本 TTS：输入 5 秒的声音样本即可体验即时的文本到语音转换。
- 少量样本训练：只需 1 分钟的训练数据即可微调模型，提高声音相似度和真实感，模仿出来的声音更接近原声且自然。
- 跨语言支持：支持英语、日语和中文等不同语言的推理。
- 易于使用的界面：集成了声音伴奏分离、自动训练集分割、中文语音识别和文本标签等工具，方便初学者创建训练数据集和模型。
- 适用于不同操作系统：可在包括 Windows 在内的多种操作系统上安装和运行。
- 提供预训练模型：可直接下载使用。
使用：
- 开源数字人组合方案：
  - 第一步：先剪出音频，使用 https://elevenlabs.io/speech-synthesis 或 GPT-SoVITS 克隆声音，做出文案的音频。
  - 第二步：使用 wav2lip 整合包，导入视频和音频，对口型得到视频。基础 wav2lip+高清修复整合包下载地址：https://github.com/Rudrabha/Wav2Lip 。
- GPT-SoVITS 实现 AIyoyo 声音克隆：
  - 前置数据获取处理：
    - 选择音频，开启切割。
    - 有噪音时，进行降噪处理。
    - 降噪处理完成，开启离线 ASR 。
  - GPT-Sowits-TTS：
    - 训练集格式化：开启一键三连，耐心等待。
    - 微调训练：开启 SoVITS 训练和 GPT 训练。
    - 推理：开始推理 - 刷新模型 - 选择微调后的模型 - yoyo 。成功后会出现新的 URL ，表示声音微调完毕。
  - 声音复刻：可实现跨多语种语言的声音，如 AIyoyo 普通话 - 满江红满江红普通话.wav 、AIyoyo 粤语版 - 满江红满江红粤语.wav 。

GitHub 地址：https://github.com/RVC-Boss/GPT-SoVITS 。视频教程：https://bilibili.com/video/BV12g4y1m7Uw/ 。

Content generated by AI large model, please carefully verify (powered by aily)

References

GPT-SoVITS：只需1分钟语音即可训练一个自己的TTS模型。GPT-SoVITS是一个声音克隆和文本到语音转换的开源Python RAG框架。5秒数据就能模仿你，1分钟的声音数据就能训练出一个高质量的TTS模型，完美克隆你的声音！根据演示来看完美适配中文，应该是目前中文支持比较好的模型。界面也易用。主要特点：1、零样本TTS：输入5秒的声音样本即可体验即时的文本到语音转换。2、少量样本训练：只需1分钟的训练数据即可微调模型，提高声音相似度和真实感。模仿出来的声音会更加接近原声，听起来更自然。跨语言支持：支持与训练数据集不同语言的推理，目前支持英语、日语和中文。3、易于使用的界面：集成了声音伴奏分离、自动训练集分割、中文语音识别和文本标签等工具，帮助初学者更容易地创建训练数据集和GPT/SoVITS模型。4、适用于不同操作系统：项目可以在不同的操作系统上安装和运行，包括Windows。5、预训练模型：项目提供了一些已经训练好的模型，你可以直接下载使用。GitHub：[https://github.com/RVC-Boss/GPT-SoVITS](https://t.co/BpHX4SlsO3)[…](https://t.co/BpHX4SlsO3)视频教程：[https://bilibili.com/video/BV12g4y1m7Uw/](https://t.co/Uo7WtSSUGO)[…](https://t.co/Uo7WtSSUGO)[[twi]@小互(@_twi(1).mp4](https://bytedance.feishu.cn/space/api/box/stream/download/all/RymsbKdweody4Cxwtsqc7Yuenxd?allow_redirect=1)使用：

开源：数字人组合方案

先剪出音频，使用https://elevenlabs.io/speech-synthesis或使用GPT-sovits[GPT-SoVITS实现声音克隆](https://waytoagi.feishu.cn/wiki/SVyUwotn7itV1wkawZCc7FEEnGg)克隆声音，做出文案的音频。[heading2]第二步[content]使用wav2lip整合包，导入视频和音频，对口型得到视频。基础wav2lip+高清修复整合包下载地址https://github.com/Rudrabha/Wav2Lip这就是目前的本地跑数字人的方案，效果都差不多，都是用的wav2lip<qa:image>caption=""h="990"image_token="NvYqbagPaolOwyxBLJ3cnnKjnyf"w="1574"</qa>产品https://synclabs.so/<qa:image>caption=""h="1162"image_token="CYqxbrlFpoXvmBxFTdLcZ55bnyf"w="2538"</qa>

GPT-SoVITS-实现 AIyoyo 声音克隆

<qa:image>caption=""h="534"image_token="TnlNbipHioPsE2xBTubc6DG8nPe"w="1249"</qa>[heading4]有噪音时，进行降噪处理[content]<qa:image>caption=""h="263"image_token="EnK9bpZzfotmJsxuS0ScPbZPnne"w="1244"</qa>[heading4]降噪处理完成，开启离线ASR[content]<qa:image>caption=""h="367"image_token="F31TbwbJXoGJWcxQpl5cGjZynBw"w="1247"</qa>[heading3]三、GPT-Sowits-TTS[heading4]训练集格式化：开启一键三连，耐心等待即可[content]<qa:image>caption=""h="774"image_token="NeMqbBbBYopV8Axf8IRc4KaHnre"w="1236"</qa>1.[heading4]微调训练[content]1.开启SoVITS训练，&开启GPT训练<qa:image>caption=""h="753"image_token="WFLTbK02uoxyAXxymVQcD4R4nsb"w="1280"</qa>[heading4]推理[content]1.开始推理-刷新模型-选择微调后的模型-yoyo<qa:image>caption=""h="701"image_token="UsVvboQ5sohwKUxMPktcmRb9nGg"w="785"</qa>[heading4]成功[content]出现新的URL，说明你自己的声音微调完毕，然后可以进行啦<qa:image>caption=""h="575"image_token="NLHpbSJaloMkp7xbYlcc8ZlUnSb"w="763"</qa>[heading3]四、声音复刻[heading4]开启声音复刻之旅吧[content]1.实现跨多语种语言的声音，不是梦<qa:image>caption=""h="966"image_token="NdEnbIovDoujkVxlPHpcWJkbnzf"w="1630"</qa>[heading4]实践的样本[content]AIyoyo普通话-满江红[满江红普通话。wav](https://drive.weixin.qq.com/s?k=AJMA1Qc4AAwbkbzYu0AQ8AbQYrAGo)AIyoyo粤语版-满江红[满江红粤语。wav](https://drive.weixin.qq.com/s?k=AJMA1Qc4AAwsRaRfHrAQ8AbQYrAGo)