上海交通大学开源了 F5-TTS 语音合成技术,这是一种完全非自回归的文本到语音系统,通过流匹配与扩散变换器(DiT)实现。它简化了传统的 TTS 系统设计,不需要复杂的时长模型、文本编码器和音素对齐,而是将文本输入用填充标记填充到与输入语音相同的长度,并利用 ConvNeXt 模型对文本表示进行细化以与语音对齐。
F5-TTS 的模型特点包括:
相关链接:
上海交通大学开源了F5-TTS语音合成技术,这是一种完全非自回归的文本到语音系统,它通过流匹配与扩散变换器(DiT)实现。F5-TTS简化了传统的TTS系统设计,不需要复杂的时长模型、文本编码器和音素对齐,而是通过将文本输入用填充标记填充到与输入语音相同的长度,并利用ConvNeXt模型对文本表示进行细化,以便与语音对齐。模型特点有:零样本(Zero-shot)声音克隆速度控制(基于总时长)可以控制合成语音的情感表现长文本合成支持中文和英文多语言合成在10万小时数据上训练最重要的是支持商用论文:[https://arxiv.org/abs/2410.06885](https://t.co/crXFdfiXeW)模型下载:[https://huggingface.co/SWivid/F5-TTS](https://t.co/ffD2m6L1EG)演示Demo:https://huggingface.co/spaces/mrfakename/E2-F5-TTS