音频视频合成-WayToAGI

回答

以下是关于音频视频合成的相关知识：

一、开源的 aiauto_v0.1 流程 跑通流程包括小说生成、语音合成、字幕生成、图像生成和视频合成：

小说生成：使用 openai 的 api“gpt-4-0613”模型 prompt 生成小说开篇，并续写至 2000 字左右。
语音合成：使用 pyttsx3 开源库进行文本到语音的生成。
字幕生成：使用开源 whisper 进行语音到文字识别（可输出每个词的开始与结束时间），并处理成字幕。
图像生成：使用 openai 的 api“gpt-4-0613”模型 prompt，进行“字幕文件“的分段，以及生成 dall-e-3 prompt，并调用 dall-e-3 api 接口，生成对应图片。
视频合成：将图片、音频、字幕合成视频。

二、语音合成的技术原理 传统的语音合成技术一般会经过以下三个步骤：

文本与韵律分析：先将文本分词，再标明每个字的发音以及重音、停顿等韵律信息，然后提取文本的特征，生成特征向量。
声学处理：通过声学模型将文本特征向量映射到声学特征向量。
声音合成：使用声码器将声学特征向量通过反变换生成声音波形，然后依次拼接得到整个文本的合成语音。在反变换过程中，可以调整参数，从而改变合成语音的音色、语调、语速等。

三、照片数字人工作流及语音合成（TTS）API - 出门问问 Mobvoi

调用参数及说明：
- 字段名“text”：必填，类型为 String，要合成的文本内容，限制为 1000 字符。支持 ssml 标记语言，使用说明见附录 3。
- 字段名“appkey”：必填，类型为 String，开发者在 AI 开放平台上申请的 appkey。
- 字段名“signature”：必填，类型为 String，签名，通过“appkey+secret+timestamp”进行 md5 加密，得到的 32 位 MD5 值。其中加号也参与 MD5 的计算。每次请求实时计算签名，签名有效期为 10 分钟。
- 字段名“timestamp”：必填，类型为 Long，当前时间戳，单位为秒。
- 字段名“speaker”：否，类型为 String，合成音频指定发音人。默认值：cissy_meet，其他发音人传值及计费价格请参考声音商店。
- 字段名“audio_type”：否，类型为 String，合成音频的格式。默认值：mp3，可选值：pcm/mp3/speex-wb-10/wav，只支持这四种格式中的一种。
- 字段名“speed”：否，类型为 Float，发音人合成的语速，支持小数点后两位。默认值：1.0，可选值：0.5 - 2.0。
- 字段名“convert”：否，类型为 String，默认值：无，可选值：robot，是否转化为机器声。

内容由 AI 大模型生成，请仔细甄别（powered by aily）

参考资料

长生：【开源】aiauto_v0.1

跑通流程：小说生成——语音合成——字幕生成——图像生成——视频合成：1.小说生成：使用openai的api“gpt-4-0613”模型prompt生成小说开篇，并续写至2000字左右；2.[Role:科幻小说作家](https://xclq32ny47.feishu.cn/wiki/XZkYwBqWti0B2Rk9i0HcUJ5jngb)3.续写提示词：1.结尾提示词：1.语音合成：使用pyttsx3开源库进行文本到语音的生成；2.字幕生成：使用开源whisper进行语音到文字识别（可输出每个词的开始与结束时间），并处理成字幕；3.图像生成：使用openai的api“gpt-4-0613”模型prompt，进行“字幕文件“的分段，以及生成dall-e-3 prompt，并调用dall-e-3 api接口，生成对应图片；4.[Role:小说字幕分镜师](https://xclq32ny47.feishu.cn/wiki/LcUGw67Wei7ncVkNfUJcymCznvc)用于获取字幕进行分镜、dall-e-3 prompt、以及当前分镜的开始时间；5.视频合成：将图片、音频、字幕，合成视频。

语音合成

传统的语音合成技术一般会经过文本与韵律分析、声学处理与声音合成三个步骤。1.文本与韵律分析：先将文本分词；再标明每个字的发音以及重音、停顿等韵律信息；然后提取文本的特征，生成特征向量。2.声学处理：通过声学模型将文本特征向量映射到声学特征向量。3.声音合成：使用声码器将声学特征向量通过反变换生成声音波形，然后一次拼接得到整个文本的合成语音。在反变换过程中，可以调整参数，从而改变合成语音的音色、语调、语速等。

照片数字人工作流及语音合成（TTS）API- 出门问问Mobvoi