人工智能的工作原理可以通过以下动画来描述:
在一个动画场景中,首先有一个传统工作流的部分,就像精心搭建的积木城堡,每一块积木的位置和形状都被精确设计和控制,这代表着传统工作流的可控性和高成本、慢速度。
然后是 AI 工作流的部分。想象一下,有一团混乱的色彩在飞舞,这团色彩代表着随机和不可控。但在这混乱中,有一种力量在尝试引导和塑造,就像在狂风中努力抓住风筝线一样,这就是在随机性中寻找可控性。
比如在一个生成音频与视频同步的例子中,动画展示了一个系统。首先,系统将视频输入编码成压缩的表示形式,就像把一大包东西压缩成一个小包裹。然后,扩散模型从随机噪声中不断改进音频,就像在混沌中逐渐塑造出清晰的声音。这个过程受到视觉输入和自然语言提示的引导,最终生成与提示紧密配合的同步逼真音频。最后,音频输出被解码,变成音频波形,并与视频数据完美结合。
总的来说,传统工作流在可控中寻找创新的随机,而 AI 工作流更多是在随机中寻找可控,两者各有优劣,结合起来能创造出更出色的成果。
本篇适合任何对AI创作感兴趣的人,我写的会比较通俗易懂,小白可以看懂。专业人士也可以获取一些创作思路灵感~《Devices》中呈现了色彩缤纷的电子设备的变换,每一帧视频截图都美极了。[heading2]可控与不可控的权衡[content]简单来说,工作流用一句话总结:使用Blender制作白模动画,导出深度图、线框图帧序列,使用ComfyUI进行风格迥异的渲染。我一直在思考一个问题:AI视频到底跟传统工作流制作视频的区别是什么?其实两者各有优缺点,并不是替代关系。AI内容速度碾压,接近零成本无限生成。AI极其不可控,很难可控构图、一致人物。AI画面粗糙,经不起细看。传统工作流(动画、电影)慢,极其可控,在制作之前即可预测内容。传统工作流成本高,需要规范流程由小到大制作。AI与传统工作流各有优劣,我觉得思考如何使用AI替代传统艺术工业,不如思考AI如何迸发新时代艺术创作流程。让AI做好AI擅长的内容,传统工作流做好传统工作流擅长的内容,两者结合,不谈替代。我想,我这不是拍过微电影又会AI嘛,为啥不结合一下呢?于是,就尝试了一下利用Blender的可控性和ComfyUI的随机性制作AI原生内容。传统工作流是在可控性中寻找创新的随机性,而AI工作流更多是在随机性中寻找可控性,那么最重要的问题变成了:如何平衡可控性与不可控性?这个思考会贯穿整个创作流程。ComfyUI节点编排工作流
We experimented with autoregressive and diffusion approaches to discover the most scalable AI architecture,and the diffusion-based approach for audio generation gave the most realistic and compelling results for synchronizing video and audio information.我们尝试了自回归和扩散方法,以发现最具可扩展性的人工智能架构,而基于扩散的音频生成方法在同步视频和音频信息方面取得了最真实、最令人信服的结果。Our V2A system starts by encoding video input into a compressed representation.Then,the diffusion model iteratively refines the audio from random noise.This process is guided by the visual input and natural language prompts given to generate synchronized,realistic audio that closely aligns with the prompt.Finally,the audio output is decoded,turned into an audio waveform and combined with the video data.我们的V2A系统首先将视频输入编码为压缩表示。然后,扩散模型从随机噪声中迭代改进音频。这一过程以视觉输入和自然语言提示为指导,生成与提示密切配合的同步逼真音频。最后,对音频输出进行解码,将其转化为音频波形,并与视频数据相结合。Diagram of our V2A system,taking video pixel and audio prompt input to generate an audio waveform synchronized to the underlying video.First,V2A encodes the video and audio prompt input and iteratively runs it through the diffusion model.Then it generates compressed audio,which is decoded into an audio waveform.我们的V2A系统示意图,该系统利用视频像素和音频提示输入生成与底层视频同步的音频波形。首先,V2A对视频和音频提示输入进行编码,并通过扩散模型反复运行。然后生成压缩音频,并解码为音频波形。
We experimented with autoregressive and diffusion approaches to discover the most scalable AI architecture,and the diffusion-based approach for audio generation gave the most realistic and compelling results for synchronizing video and audio information.我们尝试了自回归和扩散方法,以发现最具可扩展性的人工智能架构,而基于扩散的音频生成方法在同步视频和音频信息方面取得了最真实、最令人信服的结果。Our V2A system starts by encoding video input into a compressed representation.Then,the diffusion model iteratively refines the audio from random noise.This process is guided by the visual input and natural language prompts given to generate synchronized,realistic audio that closely aligns with the prompt.Finally,the audio output is decoded,turned into an audio waveform and combined with the video data.我们的V2A系统首先将视频输入编码为压缩表示。然后,扩散模型从随机噪声中迭代改进音频。这一过程以视觉输入和自然语言提示为指导,生成与提示密切配合的同步逼真音频。最后,对音频输出进行解码,将其转化为音频波形,并与视频数据相结合。Diagram of our V2A system,taking video pixel and audio prompt input to generate an audio waveform synchronized to the underlying video.First,V2A encodes the video and audio prompt input and iteratively runs it through the diffusion model.Then it generates compressed audio,which is decoded into an audio waveform.我们的V2A系统示意图,该系统利用视频像素和音频提示输入生成与底层视频同步的音频波形。首先,V2A对视频和音频提示输入进行编码,并通过扩散模型反复运行。然后生成压缩音频,并解码为音频波形。