以下是一些在模拟人声方面比较好用的工具:
此外,在制作 AI 短片时,不同工具对画面的处理能力不同,可组合使用。比如,Pixverse 擅长物体滑行运动,Runway 在真实影像方面质感较好,有手部特殊运动的画面可用 Runway 辅助完成,需要人物表情自然的画面可用 Pika 生成。
在创建 AI 伴侣方面,语音方面像 ElevenLabs 这样的产品可以赋予其声音,让您控制年龄、性别和口音。
Text to Speech(TTS)是一种人机交互技术,它将文本转换为自然的语音输出。通过TTS技术,计算机可以通过模拟人类的语音来与用户进行交互,实现语音提示、语音导航、有声读物等功能。TTS技术在智能语音助手、语音识别、语音合成等领域广泛应用。在WaytoAGI的工具网站上有一系列推荐:https://www.waytoagi.com/sites/category/50以下是几个是编辑精选的工具:1.Eleven Labs:https://elevenlabs.io/ElevenLabs Prime Voice AI是一款功能强大且多功能的AI语音软件,使创作者和出版商能够生成逼真、高品质的音频。人工智能模型能够高保真地呈现人类语调和语调变化,并能够根据上下文调整表达方式。1.Speechify:https://speechify.com/Speechify是一款人工智能驱动的文本转语音工具,使用户能够将文本转换为音频文件。它可作为Chrome扩展、Mac应用程序、iOS和Android应用程序使用,可用于收听网页、文档、PDF和有声读物。1.Azure AI Speech Studio:https://speech.microsoft.com/portalMicrosoft Azure Speech Studio是一套服务,它赋予应用程序能力,让它们能够“听懂、理解并与客户进行对话”。该服务提供了支持100多种语言和方言的语音转文本和文本转语音功能。此外,它还提供了自定义的语音模型,这些模型能够适应特定领域的术语、背景噪声以及不同的口音。1.Voicemaker:https://voicemaker.in/AI工具可将文本转换为各种区域语言的语音,并允许您创建自定义语音模型。Voicemaker易于使用,非常适合为视频制作画外音或帮助视障人士。内容由AI大模型生成,请仔细甄别。
Runway在真实影像方面质感是最好的,战争片全景的镜头处理得最好,以及Runway的控件确实目前体验感也比较好,但Runway就是特别爱变色,光影非常不稳定;SVD整体真的略拉垮……唯一能打的就是在风景片的测试,那条测试他是跑得最好的,其他方面就真的还很一般……我在做视频的时候,其实是会根据不同工具对画面的处理能力进行组合使用。举个栗子:Pixverse擅长物体滑行运动,我们就会用Pixverse生成,但这个视频里前面有一部分的飞机变形了,我们就会把Pixverse里生成的视频再放到Pika里面去局部重绘。有手部特殊运动的画面,我们就会用Runway来辅助完成。需要人物表情比较自然的画面我们就会用Pika来生成。总之就是,办法总比困难多,想尽一切招数,解决问题。这里本来可以对应介绍一些视听语言的书,但篇幅实在太长了目前,下次再推荐!第四步,AI声音这次我们尝试使用了一些简短对话的制作。通常在传统影视制作流程里,声音部分的制作会分为现场录音、后期配音、音效音乐制作等多个部分。这里用AI声音来制作对话相当于是后期配音的部分。我们会把中文台词谷歌翻译成英文,但我英语比较拉垮,所以找了非常专业的Azura Ge葛女士进行英文字幕校对与台词润色,形成配音稿。接着使用AI声音软件11labs(官网:https://elevenlabs.io/)进行对白制作,11labs的英文效果比较好,但我们仍然非常头疼地遇到了AI声音没有情绪和情感的问题。
这个选项更加技术化,但它能让你对外形因素以及你的AI伴侣的个性有最大的控制权。你可以组合多种工具,创造出你理想中的伴侣,你可以通过短信、电话甚至实时视频聊天与其互动。个性(LLM的文本):一些开源模型(尤其是Vicuna和Pygmalion)已经经过了微调,以在从具有特定个性到无审查的角色扮演等各种应用场景中表现出色。记忆(向量存储):像Pinecone这样的向量存储系统可以让你与伴侣建立持续的关系,配置代码以存储长期记忆、背景故事和其他独特信息。语音(语音合成):像ElevenLabs这样的产品可以赋予你的伴侣一种声音,让你可以控制年龄、性别和口音。外表(SD模型作图):LoRAs(类似于Civitai上的那些)让你对AI伙伴的图像风格、细节和设置有精细的控制。动画(视频动画):像D-ID和HeyGen这样的工具可以使图像“说话”;尽管我们已经看到了一些有希望的新模型能够生成高保真度的说话人脸,但可供使用的模型并不多。平台:这是伴侣的基础代码和内部逻辑执行的地方。如今,大多数开发者仍然在GCP和AWS上部署和运行他们的AI伴侣,但像Steamship(其中运行GirlfriendGPT)这样的解决方案正在迅速获得伴侣特定用例的关注。UI层:一个前端界面,让你能够与你的合作伙伴进行实际互动。SillyTavern、Agnaistic和KoboldAI是受欢迎的选择。(上图)这些图像模型可以根据几乎任何想象的兴趣定制生成图像-Furry Diffusion Discord上的这位用户对模型进行了微调,以适应毛茸茸的兴趣。如果您想要进行实验,我们刚刚推出了一个用于开始构建人工智能应用的开源模板。该项目包括了您从零开始编码伴侣所需的所有基本要素:与基于文本的模型一起工作、流式传输聊天回应、为虚拟伴侣生成适当的外貌,以及将长期记忆存储在向量数据库中。我们还将发布后续的文章和更多开源项目,详细介绍开发者用来创建人工智能伴侣的技术栈。