直达「 通往AGI之路 」飞书知识库 →
首页/问答列表/问答详情

音频视频合成

回答

以下是关于音频视频合成的相关知识:

一、开源的 aiauto_v0.1 流程 跑通流程包括小说生成、语音合成、字幕生成、图像生成和视频合成:

  1. 小说生成:使用 openai 的 api“gpt-4-0613”模型 prompt 生成小说开篇,并续写至 2000 字左右。
  2. 语音合成:使用 pyttsx3 开源库进行文本到语音的生成。
  3. 字幕生成:使用开源 whisper 进行语音到文字识别(可输出每个词的开始与结束时间),并处理成字幕。
  4. 图像生成:使用 openai 的 api“gpt-4-0613”模型 prompt,进行“字幕文件“的分段,以及生成 dall-e-3 prompt,并调用 dall-e-3 api 接口,生成对应图片。
  5. 视频合成:将图片、音频、字幕合成视频。

二、语音合成的技术原理 传统的语音合成技术一般会经过以下三个步骤:

  1. 文本与韵律分析:先将文本分词,再标明每个字的发音以及重音、停顿等韵律信息,然后提取文本的特征,生成特征向量。
  2. 声学处理:通过声学模型将文本特征向量映射到声学特征向量。
  3. 声音合成:使用声码器将声学特征向量通过反变换生成声音波形,然后依次拼接得到整个文本的合成语音。在反变换过程中,可以调整参数,从而改变合成语音的音色、语调、语速等。

三、照片数字人工作流及语音合成(TTS)API - 出门问问 Mobvoi

  1. 调用参数及说明:
    • 字段名“text”:必填,类型为 String,要合成的文本内容,限制为 1000 字符。支持 ssml 标记语言,使用说明见附录 3。
    • 字段名“appkey”:必填,类型为 String,开发者在 AI 开放平台上申请的 appkey。
    • 字段名“signature”:必填,类型为 String,签名,通过“appkey+secret+timestamp”进行 md5 加密,得到的 32 位 MD5 值。其中加号也参与 MD5 的计算。每次请求实时计算签名,签名有效期为 10 分钟。
    • 字段名“timestamp”:必填,类型为 Long,当前时间戳,单位为秒。
    • 字段名“speaker”:否,类型为 String,合成音频指定发音人。默认值:cissy_meet,其他发音人传值及计费价格请参考声音商店。
    • 字段名“audio_type”:否,类型为 String,合成音频的格式。默认值:mp3,可选值:pcm/mp3/speex-wb-10/wav,只支持这四种格式中的一种。
    • 字段名“speed”:否,类型为 Float,发音人合成的语速,支持小数点后两位。默认值:1.0,可选值:0.5 - 2.0。
    • 字段名“convert”:否,类型为 String,默认值:无,可选值:robot,是否转化为机器声。
内容由 AI 大模型生成,请仔细甄别(powered by aily)

参考资料

长生:【开源】aiauto_v0.1

跑通流程:小说生成——语音合成——字幕生成——图像生成——视频合成:1.小说生成:使用openai的api“gpt-4-0613”模型prompt生成小说开篇,并续写至2000字左右;2.[Role:科幻小说作家](https://xclq32ny47.feishu.cn/wiki/XZkYwBqWti0B2Rk9i0HcUJ5jngb)3.续写提示词:1.结尾提示词:1.语音合成:使用pyttsx3开源库进行文本到语音的生成;2.字幕生成:使用开源whisper进行语音到文字识别(可输出每个词的开始与结束时间),并处理成字幕;3.图像生成:使用openai的api“gpt-4-0613”模型prompt,进行“字幕文件“的分段,以及生成dall-e-3 prompt,并调用dall-e-3 api接口,生成对应图片;4.[Role:小说字幕分镜师](https://xclq32ny47.feishu.cn/wiki/LcUGw67Wei7ncVkNfUJcymCznvc)用于获取字幕进行分镜、dall-e-3 prompt、以及当前分镜的开始时间;5.视频合成:将图片、音频、字幕,合成视频。

语音合成

传统的语音合成技术一般会经过文本与韵律分析、声学处理与声音合成三个步骤。1.文本与韵律分析:先将文本分词;再标明每个字的发音以及重音、停顿等韵律信息;然后提取文本的特征,生成特征向量。2.声学处理:通过声学模型将文本特征向量映射到声学特征向量。3.声音合成:使用声码器将声学特征向量通过反变换生成声音波形,然后一次拼接得到整个文本的合成语音。在反变换过程中,可以调整参数,从而改变合成语音的音色、语调、语速等。

照片数字人工作流及语音合成(TTS)API- 出门问问Mobvoi

调用参数及说明:|字段名|必填|类型|描述|<br>|-|-|-|-|<br>|text|是|String|要合成的文本内容,限制为1000字符。支持ssml标记语言,使用说明见附录3。|<br>|appkey|是|String|开发者在AI开放平台上申请的appkey。|<br>|signature|是|String|签名,通过“appkey+secret+timestamp”进行md5加密,得到的32位MD5值。其中加号也参与MD5的计算。<br>每次请求实时计算签名,签名有效期为10分钟。|<br>|timestamp|是|Long|当前时间戳,单位为秒。|<br>|speaker|否|String|合成音频指定发音人<br>默认值:cissy_meet<br>其他发音人传值及计费价格请参考声音商店。|<br>|audio_type|否|String|合成音频的格式<br>默认值:mp3<br>可选值:pcm/mp3/speex-wb-10/wav<br>只支持这四种格式中的一种|<br>|speed|否|Float|发音人合成的语速,支持小数点后两位<br>默认值:1.0<br>可选值:0.5-2.0|<br>|convert|否|String|默认值:无<br>可选值:robot<br>是否转化为机器声|

其他人在问
AI 出图合成技巧
以下是一些 AI 出图合成的技巧: 方法 1(SD 出图 + AI 视频软件): 在 SD 的 controlnet 中上传原图,选择深度,通过文生图生成图片,然后将生成好的图放在 AI 视频工具中进行视频生成。相关网站:dreamina:https://dreamina.jianying.com/aitool/video/generate 方法 2(MJ 出图 + AI 视频软件): 使用 Midjourney 垫图加上描述出图,再去视频工具中转成视频。可在下载项里的深度图,打开 MJ 官网(https://www.midjourney.com/)上传深度图。局部重绘有一定难度,最终方式可以是分开画,比如先画个被关着的红衣服女孩,再画个二战德国士兵的背影,然后合成,拼在一起再交给 MJ。各种垫图局部重绘也能无中生有。
2024-09-12
我给你设计一个有机化学结构式,你能找出合成路线吗
目前的技术可以帮助您找出化学结构式的合成路线。例如,像“Coscientist”这样的人工智能系统,当被问及能否合成某个分子时,它会首先在互联网上搜索相关的合成路线,然后根据搜索结果制定实验协议,接着将实验协议写成代码以指导自动化实验设备,最后由机器人执行实验任务。这个过程是可迭代的,能够根据实验结果调整协议以改进实验并实现预期目标。 另外,在一些研究中也提到,解决诸如寻找化学合成途径等问题遵循一定的模式,虽然在实际情况中相关的可能性图可能非常庞大,但可以通过一些常见的方法来应对挑战,比如为不同的可能状态或结果分配分数,只追求得分较高的路径;在自动定理证明中,也有从初始命题向下和从最终定理向上工作,试图找到中间的交汇路径等方法。同时,如果已经确定了从 X 到 Y 存在路径的“引理”,可以将 X → Y 作为新规则添加到规则集合中。
2024-08-30
我给你分子结构,能设计合成路线吗
目前利用大型语言模型,如“Coscientist”人工智能系统,可以为给定的分子结构设计合成路线。其工作流程大致为:当被问及能否合成某个分子时,首先会在互联网上搜索相关合成路线,接着根据搜索结果制定实验协议,然后将实验协议写成代码以指导自动化实验设备,最后由机器人执行实验任务。这个过程是可迭代的,能根据实验结果调整协议以改进实验并实现预期目标。 在生物学领域,AI 也能在创造新的蛋白质方面发挥作用。例如,华盛顿大学的研究员克里斯·诺恩先生最近使用 AI 创造了一种类似萤火虫的发光蛋白质,其他研究人员也已在寻找治疟疾疫苗和帕金森病研究中使用了 AI。过去创造新蛋白质需要确定氨基酸序列如何折叠成最终分子结构以确定其实际功能,过程艰难,而现在 AI 极大地提高了效率。
2024-08-30
项目六 语音合成和音乐生成 6.1语音合成基础知识 6.1.1语⾳合成技术的发展历程 6.1.2新语⾳合成技术的优势 6.2语音合成和音乐生成应用场景 6.2.1语⾳合成技术的发展历程应⽤场景 6.2.2 ⾳乐⽣成在旅游⾏业的应⽤ 6.3语音合成和音乐生成的常用工具 6.3.1语音合成的常用工具 6.3.2音乐生成的常用工具 请根据以上内容生成思维导图
以下是为您生成的关于语音合成和音乐生成的思维导图: 一、语音合成基础知识 1. 语音合成技术的发展历程 2. 新语音合成技术的优势 二、语音合成和音乐生成应用场景 1. 语音合成技术的发展历程应用场景 2. 音乐生成在旅游行业的应用 三、语音合成和音乐生成的常用工具 1. 语音合成的常用工具 11labs(官网:https://elevenlabs.io/) 2. 音乐生成的常用工具 Manglemoose(新工具名称未公布) OpenAI 的 Jukebox(项目地址:https://openai.com/research/jukebox ) 希望这个思维导图对您有所帮助!如果您还有其他需求,请随时告诉我。
2024-08-10
合成图片用哪个平台比较好?
以下为您推荐几个合成图片的平台: 1. Stable Diffusion:可以通过 img2img 功能生成最初的背景图。在使用时,不需要过于在意画面细节,即使有错误也暂不修补。提示词如“masterpiece,best quality,low angle,depth of field,a forest with sunbeams shining through the trees,rocks laying on the ground in the foreground”可帮助生成所需图片。 2. 线上绘图网站:在绘图广场上可以发现想要的画风,点击创作会自动匹配创作使用的模型 lora 和 tag。可以截取一小张游戏人物作为底图,将线上平台有限的算力集中在人物身上。多批次、多数量地尝试不同画风,找到最符合需求的模型+lora 组合。最后还能在 C 站()下载对应模型到本地,加载部署后正式生图。 您可以根据自己的需求和使用习惯选择适合您的平台。
2024-07-16