Home/question.detail.breadcrumb.questionList/question.detail.breadcrumb.questionDetail

F5-TTS有相关的文章吗？

Answer

上海交通大学开源了 F5-TTS 语音合成技术，这是一种完全非自回归的文本到语音系统，通过流匹配与扩散变换器(DiT)实现。它简化了传统的 TTS 系统设计，不需要复杂的时长模型、文本编码器和音素对齐，而是将文本输入用填充标记填充到与输入语音相同的长度，并利用 ConvNeXt 模型对文本表示进行细化以与语音对齐。

F5-TTS 的模型特点包括：

零样本(Zero-shot)声音克隆。
速度控制（基于总时长）。
可以控制合成语音的情感表现。
长文本合成。
支持中文和英文多语言合成。
在 10 万小时数据上训练。
最重要的是支持商用。

References

AIGC Weekly #92

上海交通大学开源了F5-TTS语音合成技术，这是一种完全非自回归的文本到语音系统，它通过流匹配与扩散变换器(DiT)实现。F5-TTS简化了传统的TTS系统设计，不需要复杂的时长模型、文本编码器和音素对齐，而是通过将文本输入用填充标记填充到与输入语音相同的长度，并利用ConvNeXt模型对文本表示进行细化，以便与语音对齐。模型特点有：零样本(Zero-shot)声音克隆速度控制（基于总时长）可以控制合成语音的情感表现长文本合成支持中文和英文多语言合成在10万小时数据上训练最重要的是支持商用论文：[https://arxiv.org/abs/2410.06885](https://t.co/crXFdfiXeW)模型下载：[https://huggingface.co/SWivid/F5-TTS](https://t.co/ffD2m6L1EG)演示Demo：https://huggingface.co/spaces/mrfakename/E2-F5-TTS

Others are asking

基于TTS+LLM流式数字人的问答系统

以下是关于基于 TTS + LLM 流式数字人的问答系统的相关信息：数字人简介：算法驱动的数字人强调自驱动，人为干预更少，技术实现更复杂。其最简单的大致流程包含三个核心算法： 1. ASR（Automatic Speech Recognition，语音识别）：旨在将用户的音频数据转化为文字，便于数字人理解和生成回应，以实现像人与人一样的对话交互。 2. AI Agent（人工智能体）：充当数字人的大脑，可直接接入大语言模型，强调 Agent 的概念是为了让数字人拥有记忆模块等，使其更加真实。 3. TTS（Text to Speech，文字转语音）：由于数字人依靠 LLM 生成的输出是文字，为保持语音交互一致性，需要将文字转换为语音由数字人输出。

2024-11-25

评价tts合成效果有什么通用标准吗

对 TTS 合成效果的评价主要分为主观评价和客观评价。主观评价是通过人类对语音进行打分，常见的方法包括平均意见得分（MOS）、众包平均意见得分（CMOS）和 ABX 测试。其中 MOS 评测较为宽泛，可测试语音的不同方面，如自然度 MOS 和相似度 MOS。国际电信联盟将 MOS 评测规范化为 ITUT P.800，其中绝对等级评分（ACR）应用广泛，其根据音频级别给出 1 至 5 分的评价标准，分数越大表示语音质量越好，MOS 大于 4 时音质较好，低于 3 则有较大缺陷。但人类评分结果易受干扰，如音频样本呈现形式、有无上下文等。客观评价是通过计算机自动给出语音音质的评估，在语音合成领域研究较少。客观评价可分为有参考和无参考质量评估，有参考评估方法需要音质优异的参考信号，常见的有 ITUT P.861（MNB）、ITUT P.862（PESQ）、ITUT P.863（POLQA）、STOI 和 BSSEval 等；无参考评估方法不需要参考信号，常见的包括基于信号的 ITUT P.563 和 ANIQUE+、基于参数的 ITUT G.107（EModel），近年来深度学习也应用到无参考质量评估中，如 AutoMOS、QualityNet、NISQA 和 MOSNet 等。获取平均意见得分时，实验要求获取多样化且数量足够大的音频样本，在具有特定声学特性的设备上进行测评，控制被试遵循同样标准，确保实验环境一致。实验方法有实验室方式和众包两种，实验室方式能稳定保证实验环境，但人力成本高；众包方式易于获得有效评估结果，但无法确保试听条件。

2024-11-20

评价tts合成效果有什么通用标准吗

对 TTS 合成效果的评价主要分为主观评价和客观评价。主观评价是通过人类对语音进行打分，常见的方法有平均意见得分（MOS）、众包平均意见得分（CMOS）和 ABX 测试。MOS 评测较为灵活，可测试语音的不同方面，如自然度 MOS 和相似度 MOS。国际电信联盟（ITU）将 MOS 评测规范化为 ITUT P.800，其中绝对等级评分（ACR）应用广泛，其根据音频级别给出 1 至 5 分的评价，分数越大表示语音质量越好，MOS 大于 4 时音质较好，低于 3 则有较大缺陷。但人类评分结果受干扰因素多，如音频样本呈现形式、上下文等。客观评价是通过计算机自动给出语音音质的评估，在语音合成领域研究较少。客观评价可分为有参考和无参考质量评估，有参考评估方法需要音质优异的参考信号，常见的有 ITUT P.861（MNB）、ITUT P.862（PESQ）、ITUT P.863（POLQA）、STOI 和 BSSEval 等；无参考评估方法不需要参考信号，常见的包括基于信号的 ITUT P.563 和 ANIQUE+、基于参数的 ITUT G.107（EModel），近年来深度学习也应用到无参考质量评估中，如 AutoMOS、QualityNet、NISQA 和 MOSNet 等。获取平均意见得分时，实验要求获取多样化且数量足够大的音频样本，在具有特定声学特性的设备上进行，控制被试遵循同样标准，确保实验环境一致。实验方法有实验室方式和众包，实验室方式能控制测试要素，但人力成本高；众包易于获得评估结果，但无法确保试听条件。

2024-11-20

有没有好用的 tts 的 api 推荐啊

2024-10-30