以下是一些常见的用于 AI 语聊音频部分的工具:
此外,在音频领域,配音员水平的 AI 已经成熟,对于一般商业场景足够。当有了多模态理解能力之后,带有感情的对话能力也会在 2024 年有突破。在 AI 陪聊场景中,人脸动作的细致刻画、人物微动作、低成本生成符合聊天内容的插画、加了特定感情输出的对话、真实的背景音与烘托感情的配乐等方面都会在 2024 年内逐步成熟。
这次我们尝试使用了一些简短对话的制作。通常在传统影视制作流程里,声音部分的制作会分为现场录音、后期配音、音效音乐制作等多个部分。这里用AI声音来制作对话相当于是后期配音的部分。我们会把中文台词谷歌翻译成英文,但我英语比较拉垮,所以找了非常专业的Azura Ge葛女士进行英文字幕校对与台词润色,形成配音稿。接着使用AI声音软件11labs(官网:https://elevenlabs.io/)进行对白制作,11labs的英文效果比较好,但我们仍然非常头疼地遇到了AI声音没有情绪和情感的问题。跟视频制作类似,需要不断地抽卡(反复生成),因为11labs无法使用语速、情绪调节等控件,我们只能通过标点符号去改变语音效果,比如使用,、……。!等等标点符号,有时会叠加不同标点符号,去试它的语音效果。同一句台词,大家可以听出不同标点和抽不同卡时,声音的情绪都不太一样,所以要在AI声音里调试到合适的声音,抽声音卡的难度其实并不亚于抽视频的难度……我们常常一句台词要生成十几二十段音频,才能找到稍微能听得过去的、自然的声音。国内的可以使用出门问问的魔音工坊。魔音工坊可以使用情绪调节控件,还比较友好,但具体的评测还得等我们有机会做中文短片再试试!第五步,剪辑上篇剪辑没有多说,这次我会多说一些。目前大部分AI短片的创作者用的都是剪映,我也是,因为短片1-3分钟,用剪映其实会比传统剪辑软件更方便一些。但更长的篇幅,比如可能到5-10分钟,或者10分钟以上,要更好的效果的话,还是避免不了可能要用PR/FCP/达芬奇等等传统剪辑软件。
Text to Speech(TTS)是一种人机交互技术,它将文本转换为自然的语音输出。通过TTS技术,计算机可以通过模拟人类的语音来与用户进行交互,实现语音提示、语音导航、有声读物等功能。TTS技术在智能语音助手、语音识别、语音合成等领域广泛应用。在WaytoAGI的工具网站上有一系列推荐:https://www.waytoagi.com/sites/category/50以下是几个是编辑精选的工具:1.Eleven Labs:https://elevenlabs.io/ElevenLabs Prime Voice AI是一款功能强大且多功能的AI语音软件,使创作者和出版商能够生成逼真、高品质的音频。人工智能模型能够高保真地呈现人类语调和语调变化,并能够根据上下文调整表达方式。1.Speechify:https://speechify.com/Speechify是一款人工智能驱动的文本转语音工具,使用户能够将文本转换为音频文件。它可作为Chrome扩展、Mac应用程序、iOS和Android应用程序使用,可用于收听网页、文档、PDF和有声读物。1.Azure AI Speech Studio:https://speech.microsoft.com/portalMicrosoft Azure Speech Studio是一套服务,它赋予应用程序能力,让它们能够“听懂、理解并与客户进行对话”。该服务提供了支持100多种语言和方言的语音转文本和文本转语音功能。此外,它还提供了自定义的语音模型,这些模型能够适应特定领域的术语、背景噪声以及不同的口音。1.Voicemaker:https://voicemaker.in/AI工具可将文本转换为各种区域语言的语音,并允许您创建自定义语音模型。Voicemaker易于使用,非常适合为视频制作画外音或帮助视障人士。内容由AI大模型生成,请仔细甄别。
在音频领域,配音员水平的AI已经成熟,对于一般商业场景已经足够。当有了多模态理解能力之后,带有感情的对话能力也会在2024年有突破。对于AI陪聊这个场景,音频的重要性甚至大于视觉:走心的男/女朋友才能长久;走肾的只能一晚一换。当然,从做产品的角度来看,直接抓AGI是没法抓的,更实在的是具体商用能力的提升。比如,在AI陪聊的赛道上有:人脸动作的细致刻画(如近期的Pika Lip Sync),人物微动作(拥抱、牵手、亲吻等),低成本生成符合聊天内容的插画、加了“撒娇耍赖卖萌撩人”感情输出的对话、真实的背景音与烘托感情的配乐……这些都会在2024年内逐步成熟。"Sinking",Yifei Gong 2024,with Dall-E1.3虚拟人与虚拟世界当我们看到上面一系列技术的可能性的时候,自然的问题就来了:真-虚拟人马上就要出现了吗?以及,这意味着什么?首先,如果放在3-5年的时间轴上,具有可以模仿人类感情、甚至有独立性格的虚拟人出现是大概率事件。但如果只看2024年,概率应该并不大;这是因为有几个核心技术问题目前还没有看到解决的思路:1)记忆问题可能比想象得更加复杂,因为“记忆”同时也是“有选择的遗忘”和“特定触发下的浮现”,但这些机制目前还隐藏于“大脑”这个黑盒里;以及,我们除了寄希望于“另一个黑盒”大语言模型自我“涌现”出这样的能力之外,似乎还没有直接教会的方法;这让解决问题的不确定性变得非常高。