Chat with Wiki - 多图生成视频方案

Answer

以下是关于多图生成视频的几种方案：

方法一：
- 利用 MJ 画图，先画出来一张想要的底图。
- 使用 InsightFaceSwap 这个插件来换脸或者让脸部更像，但因该插件对多人脸部同时处理效果不好，所以先需要进行图片的分割裁剪，分别利用插件处理后，再把图片重新缝合。
- 最后利用可灵或者其他软件来让图片动起来。
方法二：
- 直接在网上寻找能够融合两张照片的软件或者项目，直接对图片进行融合。如果没有，就纯 P 图，然后利用图生视频的项目完成内容。
利用现有的知识和工具，如具备 DiT（能够进行图片生成），把视频生成看作独立的图片生成，使用 DiT 生成多帧图片然后串起来就是视频，但这样可能会导致生成的多帧图像不连贯。
使用视频工具 VIGGLE：
- Mix 模式：先上传一个视频和一张角色图像，Viggle 会自动将视频的动态赋予给这个角色，形成一段新视频，能模拟出角色的 3D 状态，准确还原复杂动作。
- Multi 模式：通过视频的动作，将上传的多个角色进行识别并赋予动作，形成一段新视频。
- Move 模式：将视频的动作直接映射在图片人物身上，实现“让静态图动起来”。

您可以根据实际需求和操作难度选择适合您的方案。

Content generated by AI large model, please carefully verify (powered by aily)

References

需求分析方法一方法二总结[heading2]一、需求分析[content]其实关于现在的图转视频，很容易做到让图片中的人物动起来，甚至做一些互动性的动作。不只是可灵很多图转视频的软件都可以做到。所以关键点其实是怎么让AI把两张照片更好的结合起来。那我们现在来思考下怎么样实现这个需求，其实一下子就想到了大概两种做法。下面我们分别尝试一下，看看效果。[heading3]一）方法一[content]利用MJ画图，先画出来一张想要的底图。然后使用InsightFaceSwap这个插件来换脸或者说让脸部更像。但是因为这个插件对多人脸部同时处理的效果并不好，所以我们先需要进行图片的分割裁剪，分别利用插件处理后，再把图片重新缝合。最后利用可灵或者其他软件来让图片动起来。流程如下[heading3]二）方法二[content]这个方法必要依赖于现有的项目，就是直接在网上寻找有没有直接能够融合两张照片的软件或者项目。直接对图片进行融合。如果没有那就是纯P图了...然后利用图生视频的项目完成内容。因为这个没什么操作感~我们先放在后面，大家想要简单点的处理办法可以直接翻到后面。

Sora的前世今生：从文生图到文生视频

假如我们具备前面的知识了，或者说给你一个DiT（能够进行图片生成），如何能够实现视频的生成呢？视频的每一帧（frame）本质上就是一张图片。在视频播放时，这些连续的图片以一定的速率（帧率，通常以每秒帧数FPS表示）快速播放，由于人眼的视觉暂留效应，这些连续的静态图片在观众眼中形成了动态效果，从而产生了视频的流畅运动感。那要实现视频生成是不是可以看作是多帧图片的生成，因此最low的做法就是把视频生成看作独立的图片生成，使用DiT生成多帧图片然后串起来就是视频了。当然，这样做的问题显然很大，因为没有考虑视频不同帧图片之间的关联，可能会导致生成的多帧图像很不连贯，串起来看就不像是视频了。

视频工具：VIGGLE

先上传一个视频和一张角色图像，Viggle会自动将视频的动态赋予给这个角色，形成一段新视频。而且Viggle并非只能生成简单的正面动作，它能模拟出角色的3D状态，这样即使原视频中有身体旋转、四肢交叠等动作，Viggle也能准确进行还原处理。（也可以利用现有的模版视频作为动作获取来源）[heading2]2、Multi（多人模式）[content]同样通过视频的动作，将上传的多个角色进行识别并赋予给这个角色，形成一段新视频。[heading2]3、Move（将视频的动作直接映射在图片人物身上）[content]不同于Mix的图片元素替换原视频内容，Move主要是通过将动作映射在图像里面的人物身上，实现“让静态图动起来”。[heading2]案例：[content][Rane.m4v](https://bytedance.feishu.cn/space/api/box/stream/download/all/Y26ybfOKGo7K3JxVfQScWmaCnre?allow_redirect=1)结合Midjourney制作图片再