Stable Diffusion 是一种基于潜在扩散模型的文本到图像生成模型,其发展历程如下:
相关论文包括:
此外,Stable Diffusion 的相关资源如下:
SD 1.4官方项目:[CompVis/stable-diffusion](https://link.zhihu.com/?target=https%3A//github.com/CompVis/stable-diffusion)SD 1.5官方项目:[runwayml/stable-diffusion](https://link.zhihu.com/?target=https%3A//github.com/runwayml/stable-diffusion)SD 2.x官方项目:[Stability-AI/stablediffusion](https://link.zhihu.com/?target=https%3A//github.com/Stability-AI/stablediffusion)diffusers库中的SD代码pipelines:[diffusers/pipelines/stable_diffusion](https://link.zhihu.com/?target=https%3A//github.com/huggingface/diffusers/tree/main/src/diffusers/pipelines/stable_diffusion)SD核心论文:[High-Resolution Image Synthesis with Latent Diffusion Models](https://link.zhihu.com/?target=https%3A//arxiv.org/abs/2112.10752)SD Turbo技术报告:[adversarial_diffusion_distillation](https://link.zhihu.com/?target=https%3A//static1.squarespace.com/static/6213c340453c3f502425776e/t/65663480a92fba51d0e1023f/1701197769659/adversarial_diffusion_distillation.pdf)
Stable Diffusion核心技术来源于AI视频剪辑技术创业公司Runway的Patrick Esser,以及慕尼黑大学机器视觉学习组的Robin Romabach。该项目的技术基础主要来自于这两位开发者之前在计算机视觉大会CVPR22上合作发表的潜扩散模型(Latent Diffusion Model)研究。Stable diffusion是一种基于潜在扩散模型(Latent Diffusion Models)的文本到图像生成模型,能够根据任意文本输入生成高质量、高分辨率、高逼真的图像。Stable diffusion的原理可以分为以下几个步骤:1.stable diffusion使用一个新颖的文本编码器(OpenCLIP),由LAION开发并得到Stability AI的支持,将文本输入转换为一个向量表示。这个向量表示可以捕捉文本的语义信息,并与图像空间对齐。2.stable diffusion使用一个扩散模型(Diffusion Model),将一个随机噪声图像逐渐变换为目标图像。扩散模型是一种生成模型,可以从训练数据中学习出一个概率分布,并从中采样出新的数据。3.在扩散过程中,stable diffusion利用文本向量和噪声图像作为条件输入,给出每一步变换的概率分布。这样,stable diffusion可以根据文本指导噪声图像向目标图像收敛,并保持图像的清晰度和连贯性。
论文题目:Stable Video Diffusion:Scaling Latent Video Diffusion Models to Large Datasets在视频生成领域,大多工作依赖于扩散模型,以从文本或图像条件中联合合成多个一致的帧。扩散模型通过学习从正态分布逐渐对样本进行去噪来实现迭代细化过程,并已成功应用于高分辨率文本到图像和视频合成。在SVD工作中,也遵循这种范式,并在大规模视频数据集上训练了一个潜在的视频扩散模型。本文主要探讨了数据选择的重要性以及数据筛选对模型性能的影响。因此,与之前的工作相比,本文利用简单的潜在视频扩散基线,固定架构和训练方案,并评估了数据管理的效果。同时,介绍了一个系统的数据筛选工作流程,将一个大规模的未筛选视频集合转化为适用于生成视频建模的高质量数据集,确定生成视频建模的三种不同训练方案,还提出一种基于预训练视频扩散模型的多视角生成方法。最后,文章探讨了模型的运动和三维理解能力,并进行了相关实验。