Chat with Wiki - 怎么做tts模型训练

Answer

以下是关于 TTS 模型训练的相关内容：

使用 GPT-SoVITS 进行 TTS 模型训练：

GPT-SoVITS 是一个声音克隆和文本到语音转换的开源 Python RAG 框架。
只需 1 分钟语音即可训练一个自己的 TTS 模型。5 秒数据就能模仿您，1 分钟的声音数据就能训练出一个高质量的 TTS 模型，完美克隆您的声音。
主要特点：
- 零样本 TTS：输入 5 秒的声音样本即可体验即时的文本到语音转换。
- 少量样本训练：只需 1 分钟的训练数据即可微调模型，提高声音相似度和真实感。模仿出来的声音会更加接近原声，听起来更自然。
- 跨语言支持：支持与训练数据集不同语言的推理，目前支持英语、日语和中文。
- 易于使用的界面：集成了声音伴奏分离、自动训练集分割、中文语音识别和文本标签等工具，帮助初学者更容易地创建训练数据集和 GPT/SoVITS 模型。
- 适用于不同操作系统：项目可以在不同的操作系统上安装和运行，包括 Windows。
- 预训练模型：项目提供了一些已经训练好的模型，您可以直接下载使用。
- GitHub：https://github.com/RVC-Boss/GPT-SoVITS
- 视频教程：https://bilibili.com/video/BV12g4y1m7Uw/

TTS 模型训练的音库制作和文本前端：

音频录制：
- 音频的录制对合成语音的表现较为重要，较差的语音甚至会导致端到端声学模型无法正常收敛。
- 用于训练的录音至少要保证录音环境和设备始终保持一致，无混响、背景噪音；原始录音不可截幅。
- 如果希望合成出来的语音干净，则要删除含口水音、呼吸音、杂音、模糊等，但对于目前的端到端合成模型，有时会学习到在合适的位置合成呼吸音、口水音，反而会增加语音自然度。
- 录音尽可能不要事先处理，语速的调节尚可，但调节音效等有时会造成奇怪的问题，甚至导致声学模型无法收敛。
- 音频的录制可以参考录音公司的标准，购买专业麦克风，并保持录音环境安静即可。
- 在音库录制过程中，可尽早提前尝试声学模型，比如音库录制 2 个小时语音后，就可尝试训练基线语音合成系统，以防止录音不符合最终的需求。
语料整理：
- 检查文本和录制的语音是否一一对应，录制的音频本身一句话是否能量渐弱，参与训练的语音前后静音段要保持一致，能量要进行规范化。
- 可使用预训练的语音活动检测（Voice Activity Detection，VAD）工具，或者直接根据语音起止的电平值确定前后静音段。
- 可以使用一些开源的工具，比如pyloudnorm统一所有语音的整体能量，这将有助于声学模型的收敛。当然，在声学模型模型训练时，首先就要对所有语料计算均值方差，进行统一的规范化，但是这里最好实现统一能量水平，防止一句话前后能量不一致。

GPT-SoVITS 实现 AIyoyo 声音克隆的步骤：

前置数据获取处理：
- 选择音频，开启切割。
- 有噪音时，进行降噪处理。
- 降噪处理完成，开启离线 ASR。
GPT-Sowits-TTS：
- 训练集格式化：开启一键三连，耐心等待即可。
- 微调训练：开启 SoVITS 训练和 GPT 训练。
- 推理：开始推理 - 刷新模型 - 选择微调后的模型 - yoyo。
- 成功：出现新的 URL，说明您自己的声音微调完毕，然后可以进行使用。
声音复刻：开启声音复刻之旅，实现跨多语种语言的声音。

希望以上内容对您有所帮助。

Content generated by AI large model, please carefully verify (powered by aily)

References

GPT-SoVITS实现声音克隆

GPT-SoVITS：只需1分钟语音即可训练一个自己的TTS模型。GPT-SoVITS是一个声音克隆和文本到语音转换的开源Python RAG框架。5秒数据就能模仿你，1分钟的声音数据就能训练出一个高质量的TTS模型，完美克隆你的声音！根据演示来看完美适配中文，应该是目前中文支持比较好的模型。界面也易用。主要特点：1、零样本TTS：输入5秒的声音样本即可体验即时的文本到语音转换。2、少量样本训练：只需1分钟的训练数据即可微调模型，提高声音相似度和真实感。模仿出来的声音会更加接近原声，听起来更自然。跨语言支持：支持与训练数据集不同语言的推理，目前支持英语、日语和中文。3、易于使用的界面：集成了声音伴奏分离、自动训练集分割、中文语音识别和文本标签等工具，帮助初学者更容易地创建训练数据集和GPT/SoVITS模型。4、适用于不同操作系统：项目可以在不同的操作系统上安装和运行，包括Windows。5、预训练模型：项目提供了一些已经训练好的模型，你可以直接下载使用。GitHub：[https://github.com/RVC-Boss/GPT-SoVITS](https://t.co/BpHX4SlsO3)[…](https://t.co/BpHX4SlsO3)视频教程：[https://bilibili.com/video/BV12g4y1m7Uw/](https://t.co/Uo7WtSSUGO)[…](https://t.co/Uo7WtSSUGO)[[twi]@小互(@_twi(1).mp4](https://bytedance.feishu.cn/space/api/box/stream/download/all/RymsbKdweody4Cxwtsqc7Yuenxd?allow_redirect=1)使用：

TTS超全教程

音频的录制对合成语音的表现较为重要，较差的语音甚至会导致端到端声学模型无法正常收敛。用于训练的录音至少要保证录音环境和设备始终保持一致，无混响、背景噪音；原始录音不可截幅；如果希望合成出来的语音干净，则要删除含口水音、呼吸音、杂音、模糊等，但对于目前的端到端合成模型，有时会学习到在合适的位置合成呼吸音、口水音，反而会增加语音自然度。录音尽可能不要事先处理，语速的调节尚可，但调节音效等有时会造成奇怪的问题，甚至导致声学模型无法收敛。音频的录制可以参考录音公司的标准，购买专业麦克风，并保持录音环境安静即可。在音库录制过程中，可尽早提前尝试声学模型，比如音库录制2个小时语音后，就可尝试训练基线语音合成系统，以防止录音不符合最终的需求。[heading3]语料整理[content]检查文本和录制的语音是否一一对应，录制的音频本身一句话是否能量渐弱，参与训练的语音前后静音段要保持一致，能量要进行规范化。可使用预训练的语音活动检测（Voice Activity Detection，VAD）工具，或者直接根据语音起止的电平值确定前后静音段。可以使用一些开源的工具，比如[pyloudnorm](https://github.com/csteinmetz1/pyloudnorm)统一所有语音的整体能量，这将有助于声学模型的收敛。当然，在声学模型模型训练时，首先就要对所有语料计算均值方差，进行统一的规范化，但是这里最好实现统一能量水平，防止一句话前后能量不一致。能量规整的示例代码如下。

GPT-SoVITS-实现 AIyoyo 声音克隆

1.[heading4]微调训练[content]1.开启SoVITS训练，&开启GPT训练[heading4]推理[content]1.开始推理-刷新模型-选择微调后的模型-yoyo[heading4]成功[content]出现新的URL，说明你自己的声音微调完毕，然后可以进行啦[heading3]四、声音复刻[heading4]开启声音复刻之旅吧[content]1.实现跨多语种语言的声音，不是梦[heading4]实践的样本[content]AIyoyo普通话-满江红[满江红普通话。wav](https://drive.weixin.qq.com/s?k=AJMA1Qc4AAwbkbzYu0AQ8AbQYrAGo)AIyoyo粤语版-满江红[满江红粤语。wav](https://drive.weixin.qq.com/s?k=AJMA1Qc4AAwsRaRfHrAQ8AbQYrAGo)[heading2]五、关于我[content]大家好～我是yoyo🐱🐈坐标北京，铲屎官一枚🫡AIGC的小白，持续进阶成长，致力于打造一个自己的智能体☕️以上期待能够给到各位一点启发感谢家属带我在“[通往AGI之路](https://waytoagi.feishu.cn/wiki/QPe5w5g7UisbEkkow8XcDmOpn8e)”打开新世界，接触有趣的事情，结识有趣的人