以下是一些常见的视频生成方案:
要生成视频,需要进入generate频道,目前有10个generate频道,大家随便选择一个进入即可PIKA生成视频的工作流程:1.直接生成视频:在输入/ create,然后输入prompt,得到视频2.图片生成视频:使用MJ/SD生成图像(可选)+在PIKA平台添加prompt =得到视频
来自GoogleBrain的视频生成方法,可以通过文字描述生成可变长度的视频主要依赖两方面能力视频像素生成能力。依赖VQ-VAE的,主要借鉴了C-ViViT方法隐空间token预测能力。依赖encoder-only的双向transformer的完形填空能力,主要借鉴了MaskGIT方法C-ViViT训练第一个阶段参考了ViViT的做法,主要用VQ-VAE方法训练得到encoder、码本和decoder三个部件attention的方式是先做spatial的attention,然后做temporal的attentionC-ViViT做patch partition的时候,先把帧堆叠在一起形成的输入做没有overlap的时间和空间切分。每个patch在时间维度上,除了第一帧只有一帧,其余每个stride是包含连续的帧。因此第一帧的patch小方块大小为,其余patch的小方块大小为。经过线性映射层后统一变成了长度为的feature一共可以得到的token数为个,注意video视觉任务比LLM的sequence要长,因为每一帧都包含大量patch(例如256,512)C-ViViT把spatial和temporal的CLS token都去掉了,并且增加了causal transform的decoder-only的mask,这样可以在计算复杂度不爆表的情况下产生任意长度的C-ViViT decoder设计跟encoder反过来,先过temporal的attention,然后再是spatial的attention。训练使用VQ-VAE方式重建训练,训练结束得到离散的codebook,这样输入的video经过encoder转化为离散的codebook向量,然后再经过decoder得到pixel视频
在文档中提到的从原始视频数据到模型训练再到模型生成视频的全流程包括以下步骤:数据准备:使用包括内部数据集和公开数据集在内的多种数据源,对图像和视频进行尺寸调整,包括空间上的抗锯齿双线性缩放和时间上的跳帧处理。模型训练:基础训练阶段使用正方形图像比例进行训练。在特定数据子集上对基础模型进行微调,以生成9:16比例的视频。采用了位置嵌入的插值和窗口尺寸的缩放。视频生成:首先使用图像LDM生成单帧图像。然后运行预测模型,以生成的单帧为条件,生成关键帧序列。在视频扩展时,再次调用预测模型,但以两帧(捕捉方向信息)为条件来生成连贯的运动。微调与优化:对于长时间视频生成,模型在帧预测任务上进行联合训练。在推断阶段,优化目标是加快小批量图像生成的速度。模型初始化:由于视频数据集规模相对较小,从预训练的图像模型(如ViT)初始化视频模型,以促进更有效的训练。