语音合成(Text to Speech,TTS)是指将文本通过一系列的信号处理转换成“人造”语音。
技术原理: 传统的语音合成技术一般会经过以下三个步骤:
出门问问的语音合成(TTS)API:
语音合成(Text to Speech,TTS)是指将文本通过一系列的信号处理转换成“人造”语音。[heading3]技术原理[content]传统的语音合成技术一般会经过文本与韵律分析、声学处理与声音合成三个步骤。1.文本与韵律分析:先将文本分词;再标明每个字的发音以及重音、停顿等韵律信息;然后提取文本的特征,生成特征向量。2.声学处理:通过声学模型将文本特征向量映射到声学特征向量。3.声音合成:使用声码器将声学特征向量通过反变换生成声音波形,然后一次拼接得到整个文本的合成语音。在反变换过程中,可以调整参数,从而改变合成语音的音色、语调、语速等。[heading3]参考资料[content][CUI三部曲之语音合成——机器如何回答你的话?](https://mp.weixin.qq.com/s/9QSdesjVlHVdfS_pUvLbMA)
1.接口描述接口请求域名:https://open.mobvoi.com/api/tts/v1接口请求频率限制:5次/秒出门问问语音合成技术(TTS)可以将任意文本转化为语音,实现让机器和应用张口说话。出门问问TTS技术可以应用到很多场景,例如,在视频APP中作为配音解说;小说App完成有声阅读,移动App语音播报新闻;智能设备语音提醒;车载导航语音合成的个性化语音播报等。出门问问TTS服务提供了普通话、台湾腔、粤语、四川话、东北话等多种方言,数百个发音人,上千种风格,满足客户在不同场景的选择需求。实时合成支持SSML,语法详见SSML标记语言。1.请求参数HTTP Method:支持POST请求调用参数及说明:
调用参数及说明:|字段名|必填|类型|描述||-|-|-|-||text|是|String|要合成的文本内容,限制为1000字符。支持ssml标记语言,使用说明见附录3。||appkey|是|String|开发者在AI开放平台上申请的appkey。||signature|是|String|签名,通过“appkey+secret+timestamp”进行md5加密,得到的32位MD5值。其中加号也参与MD5的计算。<br>每次请求实时计算签名,签名有效期为10分钟。||timestamp|是|Long|当前时间戳,单位为秒。||speaker|否|String|合成音频指定发音人<br>默认值:cissy_meet<br>其他发音人传值及计费价格请参考声音商店。||audio_type|否|String|合成音频的格式<br>默认值:mp3<br>可选值:pcm/mp3/speex-wb-10/wav<br>只支持这四种格式中的一种||speed|否|Float|发音人合成的语速,支持小数点后两位<br>默认值:1.0<br>可选值:0.5-2.0|Request Header设置