Chat with Wiki - 声音复刻

Answer

声音复刻主要通过 GPT-SoVITS 来实现，以下是相关步骤和信息：

前置数据获取处理：
- 选择音频并进行切割。
- 若有噪音，进行降噪处理。
- 降噪处理完成后，开启离线 ASR。
GPT-Sowits-TTS：
- 训练集格式化：开启一键三连，耐心等待。
- 微调训练：开启 SoVITS 训练和 GPT 训练。
- 推理：开始推理，刷新模型，选择微调后的模型（如 yoyo）。
声音复刻：开启声音复刻之旅，可实现跨多语种语言的声音。
实践的样本：
- AIyoyo 普通话 - 满江红满江红普通话.wav
- AIyoyo 粤语版 - 满江红满江红粤语.wav

GPT-SoVITS 是一个声音克隆和文本到语音转换的开源 Python RAG 框架，具有以下特点：

零样本 TTS：输入 5 秒的声音样本即可体验即时的文本到语音转换。
少量样本训练：只需 1 分钟的训练数据即可微调模型，提高声音相似度和真实感。
跨语言支持：支持与训练数据集不同语言的推理，目前支持英语、日语和中文。
易于使用的界面：集成了声音伴奏分离、自动训练集分割、中文语音识别和文本标签等工具，帮助初学者更容易地创建训练数据集和 GPT/SoVITS 模型。
适用于不同操作系统：项目可以在不同的操作系统上安装和运行，包括 Windows。
预训练模型：项目提供了一些已经训练好的模型，你可以直接下载使用。

GitHub：https://github.com/RVC-Boss/GPT-SoVITS 视频教程：https://bilibili.com/video/BV12g4y1m7Uw/

此外，还有以下开源 TTS 数据可供参考： |汇总|大量语音数据的汇总|[https://github.com/RevoSpeechTech/speech-datasets-collection] |----|----|----| |TTS|WenetSpeech4TTS|12,800 小时的配对音频 - 文本数据|[https://huggingface.co/datasets/Wenetspeech4TTS/WenetSpeech4TTS] |TTS|[米哈游 - 星穹铁道]|包含中文和日语英文韩语，请注意版权问题！|[https://github.com/AI-Hobbyist/StarRail_Datasets] |TTS|[米哈游 - 原神]|包含中文和日语英文韩语，请注意版权问题！|[https://github.com/AI-Hobbyist/Genshin_Datasets] |TTS|赛博朋克 2077|请注意版权问题！|[https://openi.pcl.ac.cn/Stardust_minus/fish-speech/datasets] |TTS-中文|[baker 标贝女声]|12 小时|[https://www.data-baker.com/open_source.html] |TTS-中文|[Aishell-3]|85 小时多说话人数据|[http://www.aishelltech.com/aishell_3] |TTS-中文|[DiDiSpeech]|500 人 60 小时，但目前已经 404 无法再获取|[https://outreach.didichuxing.com/research/opendata/] |TTS-中文|[OpenSLR]|提供各种语言的合成、识别等语料|[https://www.openslr.org/resources.php] |TTS-中文|zhvoice|3200 说话人 900 小时，用于声音复刻，合成，识别等|[https://github.com/fighting41love/zhvoice] |TTS-英文|LibriTTS|基于 Librispeech 筛选而来，更适合用于做 TTS，采样率 24k，大约 585 小时 2,456 人，其中的 train-clean-100 包含 53.8 小时/247 个发言人|[https://www.openslr.org/60/] |TTS-英文|LJ Speech|大约 24 小时|[https://keithito.com/LJ-Speech-Dataset/]

Content generated by AI large model, please carefully verify (powered by aily)

References

GPT-SoVITS-实现 AIyoyo 声音克隆

1.[heading4]微调训练[content]1.开启SoVITS训练，&开启GPT训练[heading4]推理[content]1.开始推理-刷新模型-选择微调后的模型-yoyo[heading4]成功[content]出现新的URL，说明你自己的声音微调完毕，然后可以进行啦[heading3]四、声音复刻[heading4]开启声音复刻之旅吧[content]1.实现跨多语种语言的声音，不是梦[heading4]实践的样本[content]AIyoyo普通话-满江红[满江红普通话。wav](https://drive.weixin.qq.com/s?k=AJMA1Qc4AAwbkbzYu0AQ8AbQYrAGo)AIyoyo粤语版-满江红[满江红粤语。wav](https://drive.weixin.qq.com/s?k=AJMA1Qc4AAwsRaRfHrAQ8AbQYrAGo)[heading2]五、关于我[content]大家好～我是yoyo🐱🐈坐标北京，铲屎官一枚🫡AIGC的小白，持续进阶成长，致力于打造一个自己的智能体☕️以上期待能够给到各位一点启发感谢家属带我在“[通往AGI之路](https://waytoagi.feishu.cn/wiki/QPe5w5g7UisbEkkow8XcDmOpn8e)”打开新世界，接触有趣的事情，结识有趣的人

GPT-SoVITS实现声音克隆

GPT-SoVITS：只需1分钟语音即可训练一个自己的TTS模型。GPT-SoVITS是一个声音克隆和文本到语音转换的开源Python RAG框架。5秒数据就能模仿你，1分钟的声音数据就能训练出一个高质量的TTS模型，完美克隆你的声音！根据演示来看完美适配中文，应该是目前中文支持比较好的模型。界面也易用。主要特点：1、零样本TTS：输入5秒的声音样本即可体验即时的文本到语音转换。2、少量样本训练：只需1分钟的训练数据即可微调模型，提高声音相似度和真实感。模仿出来的声音会更加接近原声，听起来更自然。跨语言支持：支持与训练数据集不同语言的推理，目前支持英语、日语和中文。3、易于使用的界面：集成了声音伴奏分离、自动训练集分割、中文语音识别和文本标签等工具，帮助初学者更容易地创建训练数据集和GPT/SoVITS模型。4、适用于不同操作系统：项目可以在不同的操作系统上安装和运行，包括Windows。5、预训练模型：项目提供了一些已经训练好的模型，你可以直接下载使用。GitHub：[https://github.com/RVC-Boss/GPT-SoVITS](https://t.co/BpHX4SlsO3)[…](https://t.co/BpHX4SlsO3)视频教程：[https://bilibili.com/video/BV12g4y1m7Uw/](https://t.co/Uo7WtSSUGO)[…](https://t.co/Uo7WtSSUGO)[[twi]@小互(@_twi(1).mp4](https://bytedance.feishu.cn/space/api/box/stream/download/all/RymsbKdweody4Cxwtsqc7Yuenxd?allow_redirect=1)使用：

TTS 数据整理

|汇总||大量语音数据的汇总|https://github.com/RevoSpeechTech/speech-datasets-collection||-|-|-|-||TTS|WenetSpeech4TTS|12,800小时的配对音频-文本数据|[https://huggingface.co/datasets/Wenetspeech4TTS/WenetSpeech4TTS](https://huggingface.co/datasets/Wenetspeech4TTS/WenetSpeech4TTS)||TTS|[米哈游-星穹铁道](https://github.com/AI-Hobbyist/StarRail_Datasets)|包含中文和日语英文韩语，请注意版权问题！|https://github.com/AI-Hobbyist/StarRail_Datasets||TTS|[米哈游-原神](https://github.com/AI-Hobbyist/Genshin_Datasets)|包含中文和日语英文韩语，请注意版权问题！|[https://github.com/AI-Hobbyist/Genshin_Datasets](https://github.com/AI-Hobbyist/Genshin_Datasets)||TTS|赛博朋克2077|请注意版权问题！|[https://openi.pcl.ac.cn/Stardust_minus/fish-speech/datasets](https://openi.pcl.ac.cn/Stardust_minus/fish-speech/datasets)||TTS-中文|[baker标贝女声](https://www.data-baker.com/open_source.html)|12小时|[https://www.data-baker.com/open_source.html](https://www.data-baker.com/open_source.html)||TTS-中文|[Aishell-3](http://www.aishelltech.com/aishell_3)|85小时多说话人数据|[http://www.aishelltech.com/aishell_3](http://www.aishelltech.com/aishell_3)||TTS-中文|[DiDiSpeech](https://outreach.didichuxing.com/research/opendata/)|500人60小时，但目前已经404无法再获取|[https://outreach.didichuxing.com/research/opendata/](https://outreach.didichuxing.com/research/opendata/)||TTS-中文|[OpenSLR](https://www.openslr.org/resources.php)|提供各种语言的合成、识别等语料|https://www.openslr.org/resources.php||TTS-中文|zhvoice|3200说话人900小时，用于声音复刻，合成，识别等|[https://github.com/fighting41love/zhvoice](https://github.com/fighting41love/zhvoice)||TTS-英文|LibriTTS|基于Librispeech筛选而来，更适合用于做TTS，采样率24k，大约585小时2,456人，其中的train-clean-100包含53.8小时/247个发言人|[https://www.openslr.org/60/](https://www.openslr.org/60/)||TTS-英文|LJ Speech|大约24小时|[https://keithito.com/LJ-Speech-Dataset/](https://keithito.com/LJ-Speech-Dataset/)|