对 TTS 合成效果的评价主要分为主观评价和客观评价。
主观评价是通过人类对语音进行打分,常见的方法有平均意见得分(MOS)、众包平均意见得分(CMOS)和 ABX 测试。MOS 评测较为灵活,可测试语音的不同方面,如自然度 MOS 和相似度 MOS。国际电信联盟(ITU)将 MOS 评测规范化为 ITU-T P.800,其中绝对等级评分(ACR)应用广泛,其根据音频级别给出 1 至 5 分的评价,分数越大表示语音质量越好,MOS 大于 4 时音质较好,低于 3 则有较大缺陷。但人类评分结果受干扰因素多,如音频样本呈现形式、上下文等。
客观评价是通过计算机自动给出语音音质的评估,在语音合成领域研究较少。客观评价可分为有参考和无参考质量评估,有参考评估方法需要音质优异的参考信号,常见的有 ITU-T P.861(MNB)、ITU-T P.862(PESQ)、ITU-T P.863(POLQA)、STOI 和 BSSEval 等;无参考评估方法不需要参考信号,常见的包括基于信号的 ITU-T P.563 和 ANIQUE+、基于参数的 ITU-T G.107(E-Model),近年来深度学习也应用到无参考质量评估中,如 AutoMOS、QualityNet、NISQA 和 MOSNet 等。
获取平均意见得分时,实验要求获取多样化且数量足够大的音频样本,在具有特定声学特性的设备上进行,控制被试遵循同样标准,确保实验环境一致。实验方法有实验室方式和众包,实验室方式能控制测试要素,但人力成本高;众包易于获得评估结果,但无法确保试听条件。
对合成语音的质量评价,主要可以分为主观和客观评价。主观评价是通过人类对语音进行打分,比如平均意见得分(Mean Opinion Score,MOS)、众包平均意见得分(CrowdMOS,CMOS)和ABX测试。客观评价是通过计算机自动给出语音音质的评估,在语音合成领域研究的比较少,论文中常常通过展示频谱细节,计算梅尔倒谱失真(Mel Cepstral Distortion,MCD)等方法作为客观评价。客观评价还可以分为有参考和无参考质量评估,这两者的主要判别依据在于该方法是否需要标准信号。有参考评估方法除了待评测信号,还需要一个音质优异的,可以认为没有损伤的参考信号。常见的有参考质量评估主要有ITU-T P.861(MNB)、ITU-T P.862(PESQ)、ITU-T P.863(POLQA)、STOI和BSSEval。无参考评估方法则不需要参考信号,直接根据待评估信号,给出质量评分,无参考评估方法还可以分为基于信号、基于参数以及基于深度学习的质量评估方法。常见的基于信号的无参考质量评估包括ITU-T P.563和ANIQUE+,基于参数的方法有ITU-T G.107(E-Model)。近年来,深度学习也逐步应用到无参考质量评估中,如:AutoMOS、QualityNet、NISQA和MOSNet。
主观评价中的MOS评测是一种较为宽泛的说法,由于给出评测分数的主体是人类,因此可以灵活测试语音的不同方面。比如在语音合成领域,主要有自然度MOS(MOS of Naturalness)和相似度MOS(MOS of Similarity)。但是人类给出的评分结果受到的干扰因素较多,谷歌对合成语音的主观评估方法进行了比较,在评估较长语音中的单个句子时,音频样本的呈现形式会显著影响参与人员给出的结果。比如仅提供单个句子而不提供上下文,与相同句子给出语境相比,被测人员给出的评分差异显著。国际电信联盟(International Telecommunication Union,ITU)将MOS评测规范化为ITU-T P.800,其中绝对等级评分(Absolute Category Rating,ACR)应用最为广泛,ACR的详细评估标准如下表所示。|音频级别|平均意见得分|评价标准||-|-|-||优|5|很好,听得清楚;延迟小,交流流畅||良|4|稍差,听得清楚;延迟小,交流欠流畅,有点杂音||中|3|还可以,听不太清;有一定延迟,可以交流||差|2|勉强,听不太清;延迟较大,交流需要重复多遍||劣|1|极差,听不懂;延迟大,交流不通畅|在使用ACR方法对语音质量进行评价时,参与评测的人员(简称被试)对语音整体质量进行打分,分值范围为1 5分,分数越大表示语音质量越好。MOS大于4时,可以认为该音质受到大部分被试的认可,音质较好;若MOS低于3,则该语音有比较大的缺陷,大部分被试并不满意该音质。
语音合成的最终目标是,合成语音应尽可能接近真实发音,以至于人类无法区分合成和真实语音。因此让人类对合成语音进行评价打分是最为直观的评价方法,评分经处理之后即可获得平均意见得分。平均意见得分是语音合成系统最重要的性能指标之一,能够直接反映合成语音的自然度、清晰度以及可懂度。[heading3]实验要求[content]获取多样化且数量足够大的音频样本,以确保结果在统计上的显著,测评在具有特定声学特性的设备上进行,控制每个被试遵循同样的评估标准,并且确保每个被试的实验环境保持一致。[heading3]实验方法[content]为了达到实验要求,可以通过两种方法获得足够精确的测评结果。第一种是实验室方式,该方式让被试在实验室环境中进行测评,在试听过程中环境噪音必须低于35dB,测试语音数量至少保持30个以上,且覆盖该语种所有音素和音素组合,参与评测的被试应尽可能熟练掌握待测合成语音的语种,最好以合成语音的语种为母语。该方法的优点是测试要素容易控制,能够稳定保证实验环境达到测评要求;缺点则主要是需要被试在固定场所完成试听,人力成本高。第二种是众包,也就是将任务发布到网络上,让具有条件的被试在任何地方进行测评。该方法主要优点是易于获得较为有效的评估结果;而缺点则体现在无法确保试听条件。