以下是关于音频视频合成的相关知识:
一、开源的 aiauto_v0.1 流程 跑通流程包括小说生成、语音合成、字幕生成、图像生成和视频合成:
二、语音合成的技术原理 传统的语音合成技术一般会经过以下三个步骤:
三、照片数字人工作流及语音合成(TTS)API - 出门问问 Mobvoi
跑通流程:小说生成——语音合成——字幕生成——图像生成——视频合成:1.小说生成:使用openai的api“gpt-4-0613”模型prompt生成小说开篇,并续写至2000字左右;2.[Role:科幻小说作家](https://xclq32ny47.feishu.cn/wiki/XZkYwBqWti0B2Rk9i0HcUJ5jngb)3.续写提示词:1.结尾提示词:1.语音合成:使用pyttsx3开源库进行文本到语音的生成;2.字幕生成:使用开源whisper进行语音到文字识别(可输出每个词的开始与结束时间),并处理成字幕;3.图像生成:使用openai的api“gpt-4-0613”模型prompt,进行“字幕文件“的分段,以及生成dall-e-3 prompt,并调用dall-e-3 api接口,生成对应图片;4.[Role:小说字幕分镜师](https://xclq32ny47.feishu.cn/wiki/LcUGw67Wei7ncVkNfUJcymCznvc)用于获取字幕进行分镜、dall-e-3 prompt、以及当前分镜的开始时间;5.视频合成:将图片、音频、字幕,合成视频。
传统的语音合成技术一般会经过文本与韵律分析、声学处理与声音合成三个步骤。1.文本与韵律分析:先将文本分词;再标明每个字的发音以及重音、停顿等韵律信息;然后提取文本的特征,生成特征向量。2.声学处理:通过声学模型将文本特征向量映射到声学特征向量。3.声音合成:使用声码器将声学特征向量通过反变换生成声音波形,然后一次拼接得到整个文本的合成语音。在反变换过程中,可以调整参数,从而改变合成语音的音色、语调、语速等。
调用参数及说明:|字段名|必填|类型|描述|<br>|-|-|-|-|<br>|text|是|String|要合成的文本内容,限制为1000字符。支持ssml标记语言,使用说明见附录3。|<br>|appkey|是|String|开发者在AI开放平台上申请的appkey。|<br>|signature|是|String|签名,通过“appkey+secret+timestamp”进行md5加密,得到的32位MD5值。其中加号也参与MD5的计算。<br>每次请求实时计算签名,签名有效期为10分钟。|<br>|timestamp|是|Long|当前时间戳,单位为秒。|<br>|speaker|否|String|合成音频指定发音人<br>默认值:cissy_meet<br>其他发音人传值及计费价格请参考声音商店。|<br>|audio_type|否|String|合成音频的格式<br>默认值:mp3<br>可选值:pcm/mp3/speex-wb-10/wav<br>只支持这四种格式中的一种|<br>|speed|否|Float|发音人合成的语速,支持小数点后两位<br>默认值:1.0<br>可选值:0.5-2.0|<br>|convert|否|String|默认值:无<br>可选值:robot<br>是否转化为机器声|