Chat with Wiki - 语音合成

Answer

语音合成（Text to Speech，TTS）是指将文本通过一系列的信号处理转换成“人造”语音。

技术原理：传统的语音合成技术一般会经过以下三个步骤：

文本与韵律分析：先将文本分词，标明每个字的发音以及重音、停顿等韵律信息，然后提取文本的特征，生成特征向量。
声学处理：通过声学模型将文本特征向量映射到声学特征向量。
声音合成：使用声码器将声学特征向量通过反变换生成声音波形，然后依次拼接得到整个文本的合成语音。在反变换过程中，可以调整参数，从而改变合成语音的音色、语调、语速等。

参考资料：CUI三部曲之语音合成——机器如何回答你的话？

出门问问的语音合成（TTS）API：

接口描述：
- 接口请求域名：https://open.mobvoi.com/api/tts/v1
- 接口请求频率限制：5 次/秒
- 应用场景：在视频 APP 中作为配音解说；小说 App 完成有声阅读，移动 App 语音播报新闻；智能设备语音提醒；车载导航语音合成的个性化语音播报等。
- 提供多种方言和风格：普通话、台湾腔、粤语、四川话、东北话等多种方言，数百个发音人，上千种风格，满足客户在不同场景的选择需求。实时合成支持 SSML，语法详见 SSML 标记语言。
请求参数：
- HTTP Method：支持 POST 请求
- 调用参数及说明：
  - 字段名：text，必填，类型为 String，要合成的文本内容，限制为 1000 字符。支持 ssml 标记语言，使用说明见附录 3。
  - 字段名：appkey，必填，类型为 String，开发者在 AI 开放平台上申请的 appkey。
  - 字段名：signature，必填，类型为 String，签名，通过“appkey+secret+timestamp”进行 md5 加密，得到的 32 位 MD5 值。其中加号也参与 MD5 的计算。每次请求实时计算签名，签名有效期为 10 分钟。
  - 字段名：timestamp，必填，类型为 Long，当前时间戳，单位为秒。
  - 字段名：speaker，否，类型为 String，合成音频指定发音人，默认值：cissy_meet，其他发音人传值及计费价格请参考声音商店。
  - 字段名：audio_type，否，类型为 String，合成音频的格式，默认值：mp3，可选值：pcm/mp3/speex-wb-10/wav，只支持这四种格式中的一种。
  - 字段名：speed，否，类型为 Float，发音人合成的语速，支持小数点后两位，默认值：1.0，可选值：0.5 - 2.0。
- Request Header 设置

Content generated by AI large model, please carefully verify (powered by aily)

References

语音合成

语音合成（Text to Speech，TTS）是指将文本通过一系列的信号处理转换成“人造”语音。[heading3]技术原理[content]传统的语音合成技术一般会经过文本与韵律分析、声学处理与声音合成三个步骤。1.文本与韵律分析：先将文本分词；再标明每个字的发音以及重音、停顿等韵律信息；然后提取文本的特征，生成特征向量。2.声学处理：通过声学模型将文本特征向量映射到声学特征向量。3.声音合成：使用声码器将声学特征向量通过反变换生成声音波形，然后一次拼接得到整个文本的合成语音。在反变换过程中，可以调整参数，从而改变合成语音的音色、语调、语速等。[heading3]参考资料[content][CUI三部曲之语音合成——机器如何回答你的话？](https://mp.weixin.qq.com/s/9QSdesjVlHVdfS_pUvLbMA)

照片数字人工作流及语音合成（TTS）API- 出门问问Mobvoi

1.接口描述接口请求域名：https://open.mobvoi.com/api/tts/v1接口请求频率限制：5次/秒出门问问语音合成技术（TTS）可以将任意文本转化为语音，实现让机器和应用张口说话。出门问问TTS技术可以应用到很多场景，例如，在视频APP中作为配音解说；小说App完成有声阅读，移动App语音播报新闻；智能设备语音提醒；车载导航语音合成的个性化语音播报等。出门问问TTS服务提供了普通话、台湾腔、粤语、四川话、东北话等多种方言，数百个发音人，上千种风格，满足客户在不同场景的选择需求。实时合成支持SSML，语法详见SSML标记语言。1.请求参数HTTP Method:支持POST请求调用参数及说明：

照片数字人工作流及语音合成（TTS）API- 出门问问Mobvoi

调用参数及说明：|字段名|必填|类型|描述||-|-|-|-||text|是|String|要合成的文本内容，限制为1000字符。支持ssml标记语言，使用说明见附录3。||appkey|是|String|开发者在AI开放平台上申请的appkey。||signature|是|String|签名，通过“appkey+secret+timestamp”进行md5加密，得到的32位MD5值。其中加号也参与MD5的计算。 每次请求实时计算签名，签名有效期为10分钟。||timestamp|是|Long|当前时间戳，单位为秒。||speaker|否|String|合成音频指定发音人 默认值：cissy_meet 其他发音人传值及计费价格请参考声音商店。||audio_type|否|String|合成音频的格式 默认值：mp3 可选值：pcm/mp3/speex-wb-10/wav 只支持这四种格式中的一种||speed|否|Float|发音人合成的语速，支持小数点后两位 默认值：1.0 可选值：0.5-2.0|Request Header设置