以下是为您提供的语料库训练相关文档:
中文数据集 |ID|标题|更新日期|数据集提供者|许可|说明|关键字|类别|论文地址|备注| |-|-|-|-|-|-|-|-|-|-| |6|CLUE Fine-Grain NER|2020 年|CLUE||CLUENER2020 数据集,是在清华大学开源的文本分类数据集 THUCTC 基础上,选出部分数据进行细粒度命名实体标注,原数据来源于 Sina News RSS。数据包含 10 个标签类别,训练集共有 10748 条语料,验证集共有 1343 条语料|细粒度;CULE|命名实体识别|\|中文| |7|CoNLL-2003|2003|CNTS-Language Technology Group||数据来源于 CoNLL-2003 的任务,该数据标注了包括 PER,LOC,ORG 和 MISC 的四个类别|CoNLL-2003|命名实体识别|论文|英文| |8|微博实体识别|2015 年|https://github.com/hltcoe/golden-horse|||EMNLP-2015|命名实体识别||| |9|SIGHAN Bakeoff 2005|2005 年|MSR/PKU|||bakeoff-2005|命名实体识别|||
TTS 超全教程 - 音库制作和文本前端 音库制作 音频录制 音频的录制对合成语音的表现较为重要,较差的语音甚至会导致端到端声学模型无法正常收敛。用于训练的录音至少要保证录音环境和设备始终保持一致,无混响、背景噪音;原始录音不可截幅;如果希望合成出来的语音干净,则要删除含口水音、呼吸音、杂音、模糊等,但对于目前的端到端合成模型,有时会学习到在合适的位置合成呼吸音、口水音,反而会增加语音自然度。录音尽可能不要事先处理,语速的调节尚可,但调节音效等有时会造成奇怪的问题,甚至导致声学模型无法收敛。音频的录制可以参考录音公司的标准,购买专业麦克风,并保持录音环境安静即可。在音库录制过程中,可尽早提前尝试声学模型,比如音库录制 2 个小时语音后,就可尝试训练基线语音合成系统,以防止录音不符合最终的需求。
语料整理 检查文本和录制的语音是否一一对应,录制的音频本身一句话是否能量渐弱,参与训练的语音前后静音段要保持一致,能量要进行规范化。可使用预训练的语音活动检测(Voice Activity Detection,VAD)工具,或者直接根据语音起止的电平值确定前后静音段。可以使用一些开源的工具,比如pyloudnorm统一所有语音的整体能量,这将有助于声学模型的收敛。当然,在声学模型模型训练时,首先就要对所有语料计算均值方差,进行统一的规范化,但是这里最好实现统一能量水平,防止一句话前后能量不一致。能量规整的示例代码如下。
NER|ID|标题|更新日期|数据集提供者|许可|说明|关键字|类别|论文地址|备注||-|-|-|-|-|-|-|-|-|-||6|[CLUE Fine-Grain NER](https://storage.googleapis.com/cluebenchmark/tasks/cluener_public.zip)|2020年|CLUE||CLUENER2020数据集,是在清华大学开源的文本分类数据集THUCTC基础上,选出部分数据进行细粒度命名实体标注,原数据来源于Sina News RSS。数据包含10个标签类别,训练集共有10748条语料,验证集共有1343条语料|细粒度;CULE|命名实体识别|\|中文||7|[CoNLL-2003](https://www.clips.uantwerpen.be/conll2003/ner/)|2003|CNTS-Language Technology Group||数据来源于CoNLL-2003的任务,该数据标注了包括PER,LOC,ORG和MISC的四个类别|CoNLL-2003|命名实体识别|[论文](https://www.aclweb.org/anthology/W03-0419.pdf)|英文||8|[微博实体识别](https://github.com/hltcoe/golden-horse)|2015年|[https://github.com/hltcoe/golden-horse](https://github.com/hltcoe/golden-horse)|||EMNLP-2015|命名实体识别||||9|[SIGHAN Bakeoff 2005](http://sighan.cs.uchicago.edu/bakeoff2005/)|2005年|MSR/PKU|||bakeoff-2005|命名实体识别|||
音频的录制对合成语音的表现较为重要,较差的语音甚至会导致端到端声学模型无法正常收敛。用于训练的录音至少要保证录音环境和设备始终保持一致,无混响、背景噪音;原始录音不可截幅;如果希望合成出来的语音干净,则要删除含口水音、呼吸音、杂音、模糊等,但对于目前的端到端合成模型,有时会学习到在合适的位置合成呼吸音、口水音,反而会增加语音自然度。录音尽可能不要事先处理,语速的调节尚可,但调节音效等有时会造成奇怪的问题,甚至导致声学模型无法收敛。音频的录制可以参考录音公司的标准,购买专业麦克风,并保持录音环境安静即可。在音库录制过程中,可尽早提前尝试声学模型,比如音库录制2个小时语音后,就可尝试训练基线语音合成系统,以防止录音不符合最终的需求。[heading3]语料整理[content]检查文本和录制的语音是否一一对应,录制的音频本身一句话是否能量渐弱,参与训练的语音前后静音段要保持一致,能量要进行规范化。可使用预训练的语音活动检测(Voice Activity Detection,VAD)工具,或者直接根据语音起止的电平值确定前后静音段。可以使用一些开源的工具,比如[pyloudnorm](https://github.com/csteinmetz1/pyloudnorm)统一所有语音的整体能量,这将有助于声学模型的收敛。当然,在声学模型模型训练时,首先就要对所有语料计算均值方差,进行统一的规范化,但是这里最好实现统一能量水平,防止一句话前后能量不一致。能量规整的示例代码如下。