Chat with Wiki - 语料库训练相关文档

Answer

以下是为您提供的语料库训练相关文档：

中文数据集 |ID|标题|更新日期|数据集提供者|许可|说明|关键字|类别|论文地址|备注| |-|-|-|-|-|-|-|-|-|-| |6|CLUE Fine-Grain NER|2020 年|CLUE||CLUENER2020 数据集，是在清华大学开源的文本分类数据集 THUCTC 基础上，选出部分数据进行细粒度命名实体标注，原数据来源于 Sina News RSS。数据包含 10 个标签类别，训练集共有 10748 条语料，验证集共有 1343 条语料|细粒度；CULE|命名实体识别|\|中文| |7|CoNLL-2003|2003|CNTS-Language Technology Group||数据来源于 CoNLL-2003 的任务，该数据标注了包括 PER,LOC,ORG 和 MISC 的四个类别|CoNLL-2003|命名实体识别|论文|英文| |8|微博实体识别|2015 年|https://github.com/hltcoe/golden-horse|||EMNLP-2015|命名实体识别||| |9|SIGHAN Bakeoff 2005|2005 年|MSR/PKU|||bakeoff-2005|命名实体识别|||

TTS 超全教程 - 音库制作和文本前端 音库制作 音频录制 音频的录制对合成语音的表现较为重要，较差的语音甚至会导致端到端声学模型无法正常收敛。用于训练的录音至少要保证录音环境和设备始终保持一致，无混响、背景噪音；原始录音不可截幅；如果希望合成出来的语音干净，则要删除含口水音、呼吸音、杂音、模糊等，但对于目前的端到端合成模型，有时会学习到在合适的位置合成呼吸音、口水音，反而会增加语音自然度。录音尽可能不要事先处理，语速的调节尚可，但调节音效等有时会造成奇怪的问题，甚至导致声学模型无法收敛。音频的录制可以参考录音公司的标准，购买专业麦克风，并保持录音环境安静即可。在音库录制过程中，可尽早提前尝试声学模型，比如音库录制 2 个小时语音后，就可尝试训练基线语音合成系统，以防止录音不符合最终的需求。

语料整理 检查文本和录制的语音是否一一对应，录制的音频本身一句话是否能量渐弱，参与训练的语音前后静音段要保持一致，能量要进行规范化。可使用预训练的语音活动检测（Voice Activity Detection，VAD）工具，或者直接根据语音起止的电平值确定前后静音段。可以使用一些开源的工具，比如pyloudnorm统一所有语音的整体能量，这将有助于声学模型的收敛。当然，在声学模型模型训练时，首先就要对所有语料计算均值方差，进行统一的规范化，但是这里最好实现统一能量水平，防止一句话前后能量不一致。能量规整的示例代码如下。

Content generated by AI large model, please carefully verify (powered by aily)

References

中文数据集

NER|ID|标题|更新日期|数据集提供者|许可|说明|关键字|类别|论文地址|备注||-|-|-|-|-|-|-|-|-|-||6|[CLUE Fine-Grain NER](https://storage.googleapis.com/cluebenchmark/tasks/cluener_public.zip)|2020年|CLUE||CLUENER2020数据集，是在清华大学开源的文本分类数据集THUCTC基础上，选出部分数据进行细粒度命名实体标注，原数据来源于Sina News RSS。数据包含10个标签类别，训练集共有10748条语料，验证集共有1343条语料|细粒度；CULE|命名实体识别|\|中文||7|[CoNLL-2003](https://www.clips.uantwerpen.be/conll2003/ner/)|2003|CNTS-Language Technology Group||数据来源于CoNLL-2003的任务，该数据标注了包括PER,LOC,ORG和MISC的四个类别|CoNLL-2003|命名实体识别|[论文](https://www.aclweb.org/anthology/W03-0419.pdf)|英文||8|[微博实体识别](https://github.com/hltcoe/golden-horse)|2015年|[https://github.com/hltcoe/golden-horse](https://github.com/hltcoe/golden-horse)|||EMNLP-2015|命名实体识别||||9|[SIGHAN Bakeoff 2005](http://sighan.cs.uchicago.edu/bakeoff2005/)|2005年|MSR/PKU|||bakeoff-2005|命名实体识别|||

TTS超全教程

音频的录制对合成语音的表现较为重要，较差的语音甚至会导致端到端声学模型无法正常收敛。用于训练的录音至少要保证录音环境和设备始终保持一致，无混响、背景噪音；原始录音不可截幅；如果希望合成出来的语音干净，则要删除含口水音、呼吸音、杂音、模糊等，但对于目前的端到端合成模型，有时会学习到在合适的位置合成呼吸音、口水音，反而会增加语音自然度。录音尽可能不要事先处理，语速的调节尚可，但调节音效等有时会造成奇怪的问题，甚至导致声学模型无法收敛。音频的录制可以参考录音公司的标准，购买专业麦克风，并保持录音环境安静即可。在音库录制过程中，可尽早提前尝试声学模型，比如音库录制2个小时语音后，就可尝试训练基线语音合成系统，以防止录音不符合最终的需求。[heading3]语料整理[content]检查文本和录制的语音是否一一对应，录制的音频本身一句话是否能量渐弱，参与训练的语音前后静音段要保持一致，能量要进行规范化。可使用预训练的语音活动检测（Voice Activity Detection，VAD）工具，或者直接根据语音起止的电平值确定前后静音段。可以使用一些开源的工具，比如[pyloudnorm](https://github.com/csteinmetz1/pyloudnorm)统一所有语音的整体能量，这将有助于声学模型的收敛。当然，在声学模型模型训练时，首先就要对所有语料计算均值方差，进行统一的规范化，但是这里最好实现统一能量水平，防止一句话前后能量不一致。能量规整的示例代码如下。