Chat with Wiki - stable diffusion

Answer

稳定扩散（Stable Diffusion）是一种扩散模型的变体，最初称为潜在扩散模型（Latent Diffusion Models）。

在传统扩散模型中，反向扩散过程通过 U-Net 结构将全尺寸图像逐步传递以获得去噪结果，但存在计算效率挑战。为解决此问题，研究人员提出了稳定扩散。

其核心组件包括：

CLIP：将用户输入的 Prompt 文本转化成 text embedding。
VAE Encoder-Decoder。
UNET：进行迭代降噪，在文本引导下进行多轮预测。

稳定扩散的运作方式是消除图像中的噪点。比如在太暗情况下拍照产生的颗粒状即噪点，它比手机图像编辑器中的噪点消除滑块复杂得多，它了解世界和书面语言来指导噪点消除过程。

稳定扩散是逐步去除噪点的，有“推理步骤”滑块。

ComfyUI 使用预训练的扩散模型（如 Stable Diffusion 模型）作为核心，包括 SD1.5、SD2.0、SDXL、SD3、FLUX 等模型。当用户输入文本提示时，ComfyUI 首先使用 CLIP 文本编码器将文本转换为向量表示以捕捉语义信息。

在 ComfyUI 的节点化界面中，每一步操作可通过不同模块实现，用户可控制潜在空间中的操作（如调度器和噪声选择）、U-Net 中的推理步骤（通过去噪模块实现）以及条件输入（通过文本提示或图像引导）。

稳定扩散的相关模型有 SD1.5、SDXL 等，训练方法有 DreamBooth 等。模型格式有.pt 和.safetensor，还有融合模型等形式。训练要求方面，SD1.5 需 12G VARM，SDXL 需 16G VARM。

Content generated by AI large model, please carefully verify (powered by aily)

References

第二课《ComfyUI基础知识》 By 郭佑萌 @ 🌈WaytoAGI 2024.8.15 .pdf

‎的去噪结果。然而，这种迭代性质在计算效率上带来了挑战，特别是在处理大尺寸图像和‎大量扩散步骤(T)时。在采样过程中，从高斯噪声中去噪图像可能需要很长时间。为了解‎决这一问题，一组研究人员提出了一种新的方法，称为稳定扩散（Stable Diffusion），‎最初称为潜在扩散模型（Latent Diffusion Models）‎Stable Diffusion‎Stable Diffusion是一种扩散模型（diffusion model）的变体，叫做“潜在扩散模[heading1]‎型”(Latent Diffusion Models)[content]‎CLIP‎将用户输入的Prompt文本转化成text embedding‎核心的组件‎VAE Encoder-Decoder‎UNET‎UNET进行迭代降噪，在文本引导下进行多轮预测‎High-Resolution Image Synthesis with Latent Diffusion Models‎ComfyUI存放路径：models/checkpoints/‎SD1.5‎SD基础预训练模型‎SDXL‎SD1.5‎模型实例‎SDXL‎训练方法‎DreamBooth，by Google‎EMA-only&pruned VS Full‎FP16&FP32‎格式‎.pt VS.safetensor‎Bake in VAE‎模型自带已适配的VAE‎SD微调模型‎概念学习‎Checkpoint‎作用‎source：stable-diffusion-art.com/models/#How_are_models_created‎1puppy‎训练要求‎sd1.5‎12G VARM‎SDXL‎16G VARM‎The merged model sits between the realistic F222 and the anime Anything V3‎styles.It is a very good model for generating illustration art with human figures.‎(source:stable-diffusion-art.com/models/#Example_of_a_merged_model)‎融合模型‎checkpoint+checkpoint‎Lora+Lora‎形式‎checkpoint+Lora‎Baking VAE

稳定扩散（Stable Diffusion）是如何运作的

如果您曾尝试在太暗的情况下拍照，而拍出的照片全是颗粒状，那么这种颗粒状就是图像中“噪点”的一个例子。我们使用Stable Diffusion来生成艺术作品，但它实际上在幕后所做的是“清理”图像！不过，它比手机图像编辑器中的噪点消除滑块复杂得多。它实际上了解世界的样子、了解书面语言，并利用这些来指导（噪点消除）过程。例如，想象一下，如果我给了下面左边的图像给一位熟练的平面艺术家，并告诉他们这是一幅以H.R。Giger（瑞士画家、雕塑家与布景师，《异形》中的外星生物就是他的作品）的风格描绘的外星人弹吉他的画。我打赌他们可以精心清理它，创造出像右图那样的东西。（这些是稳定扩散的实际图像！)艺术家会利用他们对Giger的艺术作品的了解，以及对世界的了解（例如吉他应该是什么样子以及如何弹奏）来做到这一点。稳定扩散本质上是在做同样的事情！[heading2]“推理步骤”[content]你熟悉大多数艺术生成工具中的“推理步骤”滑块吗？稳定扩散是逐步去除噪点的。这是一个运行25步的例子：外星吉他手的例子更有意义，因为你可以更清楚地看出它应该是什么样子的……但在上图中，起始图像看起来完全无法辨认！实际上，这个充满噪点的外星人例子其实是从过程的大约一半开始取的——它（最开始的图像）实际上也是从完全的噪点开始的！

ComfyUI的生图原理副本

结合ComfyUI的生图原理，这张图展示了扩散模型中的加噪和去噪过程。在ComfyUI的节点化界面中，每一步的操作都可以通过不同的模块来实现，用户可以控制潜在空间中的操作（如调度器和噪声的选择）、U-Net中的推理步骤（通过去噪模块实现）、以及条件输入（通过文本提示或图像引导）。[heading1]一、基础模型[content]ComfyUI使用预训练的扩散模型作为其核心,通常是Stable Diffusion模型。这些模型通过大量图像和文本对的训练,学会了将文本描述与视觉概念关联起来。其中包括SD1.5、SD2.0、SDXL、SD3、FLUX等模型。[heading1]二、文本编码[content]当用户输入文本提示时,ComfyUI首先使用CLIP(Contrastive Language-Image Pre-training)文本编码器将文本转换为向量表示。这个向量捕捉了文本的语义信息。