与知识库对话 - 帮我提升视频帧率

回答

以下是一些提升视频帧率的方法：

使用 Topaz Video AI 插件：
- 解压对应文件，推荐使用绿色版。
- 右键管理员运行 VideoAIportable.exe 文件。
- 导入处理好的视频。
- 在预设部分选择提升帧率的相关设置，如选择合适的模型。
- 对于稳定 AI，模式选择完整帧，强度在 60 左右，开启抖动，次数选择 2 保持默认不变。
- 可以根据电脑性能选择稳定+运动模糊等操作。
利用帧插值网络：
- 如 Singer et al. 在 2022 年提出的 Make-A-Video 包含用于高帧率生成的帧插值网络，它在一个预训练扩散图像模型的基础上扩展一个时间维度，包含在文本-图像对数据上训练的基础文生图模型、时空卷积和注意力层以及帧插值网络。
- 此外，还有如 Imagen Video 扩散模型中的帧插值相关技术。

内容由 AI 大模型生成，请仔细甄别（powered by aily）

参考资料

这个插件用来消除视频抖动和运动模糊的一个插件。具体如何使用我们这里也大概说一下。解压好对应的文件，这里我推荐使用绿色版。（对应的安装包已经在网盘里了大家可以直接下载）。右键，管理员运行VideoAIportable.exe文件导入刚才处理好的视频这里我们可以看一下对应的主界面左边是原视频，右边是待处理视频。下面是对应的视频轨道右边的部分则是主要对视频处理的方式预设部分：主要是放大视频，提升画质，提升帧率视频部分：这里保持默认就好了，因为我们就是提升画质稳定AI：主要用于画面的稳定和减少抖动（下面会详细说明一下）消除运动模糊AI：这个没啥好说的字面意思里面就一个模型帧插值AI：这个里面主要是识别对应的帧和帧之间进行修复替换。主要有几种模型下面会具体介绍增强AI：选择不同的模型对视频进行整体的优化，包括面部，去噪，锐化提升等颗粒：没咋用过。。上面的操作真的依据电脑来的。不过一般我们都会选择稳定+运动模糊。你要实在不行你可以一个一个来操作但是那样会很慢。具体讲一下稳定AI：模式里面分为自动裁切和完整帧，因为我们做的是转绘所以自然就选择完整帧强度我这里试了一下在60就可以太高的话一些场景直接就糊了抖动需要开起来次数一般选择2保持默认不变。太高了就跟磨皮过头了一样帧插值：

Lilian Weng｜视频生成的扩散模型

Singer et al.在2022年提出的Make-A-Video是在一个预训练扩散图像模型的基础上扩展一个时间维度，其包含三个关键组件：1.一个在文本-图像对数据上训练的基础文生图模型。2.时空卷积和注意力层，使网络覆盖时间维度。3.一个帧插值网络，用于高帧率生成。图6：Make-A-Video工作流程示意图。最终的视频推理方案的数学形式可以写成这样：其中：?是输入文本?^是BPE编码的文本CLIPtext(.)是CLIP文本编码器，??=CLIPtext(?).?(.)是先验，给定文本嵌入?_?和BPE编码的文本?^，生成图像嵌入?_?:??=?(??,?^)。这部分是在文本-图像对数据上训练的，不会在视频数据上进行微调。??(.)是时空解码器，其能生成一系列的16帧视频，其中每一帧都是低分辨率的64x64 RGB图像?^?.↑?(.)是帧插值网络，可通过在生成的帧之间插值而有效提升帧率。这是一个经过微调的模型，可用于为视频上采样任务预测被掩蔽的帧。SRℎ(.),SR??(.)是空间和时空超分辨率模型，可分别将图像分辨率提升到256x256和768x768。?^?是最终生成的视频。时空超分辨率层包含伪3D卷积层和伪3D注意力层：

Sora之后，OpenAI Lilian Weng亲自撰文教你从头设计视频生成扩散模型

图4：Imagen Video扩散模型中一个空间-时间可分离模块的架构。SSR和TSR模型都基于在通道方面连接了有噪声数据?_?的上采样的输入。SSR是通过双线性大小调整来上采样，而TSR则是通过重复帧或填充空白帧来上采样。Imagen Video还应用了渐进式蒸馏来加速采样，每次蒸馏迭代都可以将所需的采样步骤减少一半。在实验中，他们能够将所有7个视频扩散模型蒸馏为每个模型仅8个采样步骤，同时不会对感知质量造成任何明显损失。为了更好地扩大模型规模，Sora采用了DiT（扩散Transformer）架构，其操作的是视频和图像隐代码的时空块（spacetime patch）。其会将视觉输入表示成一个时空块序列，并将这些时空块用作Transformer输入token。图5：Sora是一个扩散Transformer模型。调整图像模型来生成视频在扩散视频建模方面，另一种重要方法是通过插入时间层来「扩增」预训练的文生图扩散模型，然后就可以选择仅在视频上对新的层进行微调或完全避免进行额外的训练。这个新模型会继承文本-图像对的先验知识，由此可以帮助缓解对文本-视频对数据的需求。在视频数据上进行微调Singer et al.在2022年提出的Make-A-Video是在一个预训练扩散图像模型的基础上扩展一个时间维度，其包含三个关键组件：1.一个在文本-图像对数据上训练的基础文生图模型。2.时空卷积和注意力层，使网络覆盖时间维度。3.一个帧插值网络，用于高帧率生成。