Stable Diffusion 中的 Stable Video Diffusion 可以生成视频。
Stable Video Diffusion 是 Stability AI 于 2023 年 11 月 21 日发布的视频生成式大模型,它是一种用于高分辨率、先进的文本到视频和图像到视频生成的潜在视频扩散模型。该模型不仅支持文本、图像生成视频,还支持多视角渲染和帧插入提升视频帧率。用户可以调整模型选择、视频尺寸、帧率及镜头移动距离等参数。
当时,Stable Video Diffusion 开源了两种图生视频的模型,一种是能够生成 14 帧的 SVD,另一种则是可以生成 25 帧的 SVD-XL。在以基础形式发布时,通过外部评估,发现这些模型超越了人类偏好研究中领先的封闭模型。
其主要贡献包括:提出一个系统的数据管理工作流程,将大量未经管理的视频集合转变为用于生成视频建模的高质量数据集;使用此工作流程,训练最先进的文本到视频和图像到视频模型,其性能优于所有现有模型;通过进行特定领域的实验来探索 SVD 模型中运动和 3D 理解的强先验。具体来说,预训练的视频扩散模型可以转变为强大的多视图生成器,这可能有助于克服 3D 领域中的数据稀缺问题。
Stability AI 还推出了基于 Discord 的媒体生成和编辑工具,其中的视频功能基于初始图像使用 Stable Video Diffusion 生成短视频。
在云部署实战方面,关于上面的两个模型依赖权重可在百度网盘获取,关注公众号「魔方 AI 空间」,回复【SVD】即可。手动下载下来后,分别放到指定路径。在准备工作做好后,再次运行,复制 url 到浏览器中打开。点击下拉箭头,可以选择不同模型版本,再勾选 load Model。SVD 本地部署目前仅支持图生视频,图片来源可以选择 AI 绘画工具如 Midjourney、Stable Diffusion 等生成图片,然后再上传到 SVD 进行视频的生成,同时可以调左侧的一些参数,控制视频的生成效果。视频生成的保存路径在 outputs 下。
但需要注意的是,SVD 模型对硬件要求较高,对于缺乏硬件资源的普通用户有一定限制,同时其支持的图片尺寸较小,限制了它的应用场景。尽管 SVD 与其他商用产品在帧率、分辨率、内容控制、风格选择和视频生成时长等方面存在差距,但其开源属性和对大规模数据的有效利用构成了其独特优势。
Stable Video Diffusion是Stability AI于2023年11月21日发布的视频生成式大模型,一种用于高分辨率、先进的文本到视频和图像到视频生成的潜在视频扩散模型。SVD模型不仅支持文本、图像生成视频,还支持多视角渲染和帧插入提升视频帧率。用户可以调整模型选择、视频尺寸、帧率及镜头移动距离等参数。SVD模型对硬件要求较高,对于缺乏硬件资源的普通用户有一定限制,同时其支持的图片尺寸较小,限制了它的应用场景。尽管SVD与其他商用产品在帧率、分辨率、内容控制、风格选择和视频生成时长等方面存在差距,但其开源属性和对大规模数据的有效利用构成了其独特优势。[heading2]模型版本[heading2][content]当时,Stable Video Diffusion开源了两种图生视频的模型,一种是能够生成14帧的SVD,另一种则是可以生成25帧的SVD-XL。在以基础形式发布时,通过外部评估,发现这些模型超越了人类偏好研究中领先的封闭模型。[heading2]主要贡献[heading2][content]提出一个系统的数据管理工作流程,将大量未经管理的视频集合转变为用于生成视频建模的高质量数据集。使用此工作流程,训练最先进的文本到视频和图像到视频模型,其性能优于所有现有模型。通过进行特定领域的实验来探索SVD模型中运动和3D理解的强先验。具体来说,预训练的视频扩散模型可以转变为强大的多视图生成器,这可能有助于克服3D领域中的数据稀缺问题。
无需蒙版,通过搜索提示识别对象并替换。我把猫换成了狗[heading3]创意放大:[content]将低分辨率或低质量图像放大至4K分辨率,同时可以附加提示,我又加上猫之后就变成这样。[heading3]外扩[content]在图像中添加内容以扩展空间,五个选项,全面,相当于MJ的x2,以及上下左右单独扩展。[heading3]控制草图[content]将手绘草图转换为高质量图像,适用于设计项目,继续猫,哈哈哈哈哈哈[heading3]Reuse as structure[content]保持输入图像结构,适用于高级内容创建。这个真没看懂[heading3]删除背景:[content]准确分割前景并删除背景。[heading3]视频:[content]基于初始图像使用Stable Video Diffusion生成短视频。惊悚啊[image0.mp4](https://bytedance.feishu.cn/space/api/box/stream/download/all/ZYaJbC2l2oUDi5xoSRtc1HEOnzb?allow_redirect=1)
同时关于上面的两个模型依赖权重也放到了百度网盘资源里,关注公众号「魔方AI空间」,回复【SVD】即可获取!!手动下载下来后,分别放到路径如下:在以上准备工作做好后,再次运行!!复制url到浏览器中打开!!点击下拉箭头,可以选择不同模型版本,再勾选load Model!!这里可以看到,增加了svd-fp16模型的支持,可以在video_sampling.py代码中进行添加,其他模型依次类推!!视频创作在以上准备工作完成,并且模型正确加载后,我们就可以开始视频生成的创作了!!SVD本地部署目前仅支持图生视频,关于图片的来源,我们可以选择AI绘画工具如:Midjourney、Stable Diffusion等生成图片,然后再上传到SVD进行视频的生成!!同时,可以调左侧的一些参数,控制视频的生成效果!!视频生成的保存路径在outputs下,生成的效果如下:[20240420-231858.mp4](https://bytedance.feishu.cn/space/api/box/stream/download/all/IsTvbU2hooylyhx8jOKcLjfznKb?allow_redirect=1)