Chat with Wiki - 评价tts合成效果有什么通用标准吗

Answer

对 TTS 合成效果的评价主要分为主观评价和客观评价。

主观评价是通过人类对语音进行打分，常见的方法有平均意见得分（MOS）、众包平均意见得分（CMOS）和 ABX 测试。MOS 评测较为灵活，可测试语音的不同方面，如自然度 MOS 和相似度 MOS。国际电信联盟（ITU）将 MOS 评测规范化为 ITU-T P.800，其中绝对等级评分（ACR）应用广泛，其根据音频级别给出 1 至 5 分的评价，分数越大表示语音质量越好，MOS 大于 4 时音质较好，低于 3 则有较大缺陷。但人类评分结果受干扰因素多，如音频样本呈现形式、上下文等。

客观评价是通过计算机自动给出语音音质的评估，在语音合成领域研究较少。客观评价可分为有参考和无参考质量评估，有参考评估方法需要音质优异的参考信号，常见的有 ITU-T P.861（MNB）、ITU-T P.862（PESQ）、ITU-T P.863（POLQA）、STOI 和 BSSEval 等；无参考评估方法不需要参考信号，常见的包括基于信号的 ITU-T P.563 和 ANIQUE+、基于参数的 ITU-T G.107（E-Model），近年来深度学习也应用到无参考质量评估中，如 AutoMOS、QualityNet、NISQA 和 MOSNet 等。

获取平均意见得分时，实验要求获取多样化且数量足够大的音频样本，在具有特定声学特性的设备上进行，控制被试遵循同样标准，确保实验环境一致。实验方法有实验室方式和众包，实验室方式能控制测试要素，但人力成本高；众包易于获得评估结果，但无法确保试听条件。

Content generated by AI large model, please carefully verify (powered by aily)

References

TTS超全教程

对合成语音的质量评价，主要可以分为主观和客观评价。主观评价是通过人类对语音进行打分，比如平均意见得分（Mean Opinion Score，MOS）、众包平均意见得分（CrowdMOS，CMOS）和ABX测试。客观评价是通过计算机自动给出语音音质的评估，在语音合成领域研究的比较少，论文中常常通过展示频谱细节，计算梅尔倒谱失真（Mel Cepstral Distortion，MCD）等方法作为客观评价。客观评价还可以分为有参考和无参考质量评估，这两者的主要判别依据在于该方法是否需要标准信号。有参考评估方法除了待评测信号，还需要一个音质优异的，可以认为没有损伤的参考信号。常见的有参考质量评估主要有ITU-T P.861（MNB）、ITU-T P.862（PESQ）、ITU-T P.863（POLQA）、STOI和BSSEval。无参考评估方法则不需要参考信号，直接根据待评估信号，给出质量评分，无参考评估方法还可以分为基于信号、基于参数以及基于深度学习的质量评估方法。常见的基于信号的无参考质量评估包括ITU-T P.563和ANIQUE+，基于参数的方法有ITU-T G.107（E-Model）。近年来，深度学习也逐步应用到无参考质量评估中，如：AutoMOS、QualityNet、NISQA和MOSNet。

TTS超全教程

主观评价中的MOS评测是一种较为宽泛的说法，由于给出评测分数的主体是人类，因此可以灵活测试语音的不同方面。比如在语音合成领域，主要有自然度MOS（MOS of Naturalness）和相似度MOS（MOS of Similarity）。但是人类给出的评分结果受到的干扰因素较多，谷歌对合成语音的主观评估方法进行了比较，在评估较长语音中的单个句子时，音频样本的呈现形式会显著影响参与人员给出的结果。比如仅提供单个句子而不提供上下文，与相同句子给出语境相比，被测人员给出的评分差异显著。国际电信联盟（International Telecommunication Union，ITU）将MOS评测规范化为ITU-T P.800，其中绝对等级评分（Absolute Category Rating，ACR）应用最为广泛，ACR的详细评估标准如下表所示。|音频级别|平均意见得分|评价标准||-|-|-||优|5|很好，听得清楚；延迟小，交流流畅||良|4|稍差，听得清楚；延迟小，交流欠流畅，有点杂音||中|3|还可以，听不太清；有一定延迟，可以交流||差|2|勉强，听不太清；延迟较大，交流需要重复多遍||劣|1|极差，听不懂；延迟大，交流不通畅|在使用ACR方法对语音质量进行评价时，参与评测的人员（简称被试）对语音整体质量进行打分，分值范围为1 5分，分数越大表示语音质量越好。MOS大于4时，可以认为该音质受到大部分被试的认可，音质较好；若MOS低于3，则该语音有比较大的缺陷，大部分被试并不满意该音质。

TTS超全教程

语音合成的最终目标是，合成语音应尽可能接近真实发音，以至于人类无法区分合成和真实语音。因此让人类对合成语音进行评价打分是最为直观的评价方法，评分经处理之后即可获得平均意见得分。平均意见得分是语音合成系统最重要的性能指标之一，能够直接反映合成语音的自然度、清晰度以及可懂度。[heading3]实验要求[content]获取多样化且数量足够大的音频样本，以确保结果在统计上的显著，测评在具有特定声学特性的设备上进行，控制每个被试遵循同样的评估标准，并且确保每个被试的实验环境保持一致。[heading3]实验方法[content]为了达到实验要求，可以通过两种方法获得足够精确的测评结果。第一种是实验室方式，该方式让被试在实验室环境中进行测评，在试听过程中环境噪音必须低于35dB，测试语音数量至少保持30个以上，且覆盖该语种所有音素和音素组合，参与评测的被试应尽可能熟练掌握待测合成语音的语种，最好以合成语音的语种为母语。该方法的优点是测试要素容易控制，能够稳定保证实验环境达到测评要求；缺点则主要是需要被试在固定场所完成试听，人力成本高。第二种是众包，也就是将任务发布到网络上，让具有条件的被试在任何地方进行测评。该方法主要优点是易于获得较为有效的评估结果；而缺点则体现在无法确保试听条件。