Chat with Wiki - stable diffusion

Answer

稳定扩散（Stable Diffusion）的运作原理如下：

消除图像中的噪点：
- 如同在太暗环境拍照产生的颗粒状噪点，Stable Diffusion 用于生成艺术作品时会在幕后“清理”图像，它比手机图像编辑器中的噪点消除滑块复杂得多，它了解世界的样子和书面语言，并以此指导噪点消除过程。例如，给它一幅以 H.R. Giger 风格描绘的外星人弹吉他的画，它能像熟练的平面艺术家一样进行清理。
- 大多数艺术生成工具中有“推理步骤”滑块，稳定扩散是逐步去除噪点的。
起始运作方式：为生成艺术，给稳定扩散提供纯噪点的初始图像，它基于统计数据估计所有选项的概率，即使正确概率极低，仍会选择概率最高的路径。例如，它对吉他在图像中的位置有一定理解，会寻找噪点中最可能像吉他边缘的部分进行填充，且每次给不同的纯噪点图像都会创作出不同作品。
相关组件和模型：
- UNET 是从噪音中生成图像的主要组件，在预测过程中通过反复调用 UNET，将其预测输出的 noise slice 从原有的噪声中去除，得到逐步去噪后的图像表示。Stable Diffusion Model 的 UNET 包含约 860M 的参数，以 float32 的精度编码大概需要 3.4G 的存储空间。
- CLIP 将用户输入的 Prompt 文本转化成 text embedding，UNET 进行迭代降噪，在文本引导下进行多轮预测。
- 传统扩散模型在处理大尺寸图像和大量扩散步骤时存在计算效率问题，稳定扩散（最初称为潜在扩散模型）是为解决此问题提出的新方法。
存放路径和模型实例：
- ComfyUI 存放路径：models/checkpoints/SD 基础预训练模型，包括 SD1.5、SDXL 以及 SD 微调模型。
- 模型实例有【majicMIX realistic 麦橘写实 V7】（sd1.5 微调）、【LEOSAM HelloWorld 新世界】（SDXL 微调）等。
训练方法：DreamBooth（by Google）
格式：EMA-only & pruned 只画图，Full 可画图和微调训练。

Content generated by AI large model, please carefully verify (powered by aily)

References

如果您曾尝试在太暗的情况下拍照，而拍出的照片全是颗粒状，那么这种颗粒状就是图像中“噪点”的一个例子。我们使用Stable Diffusion来生成艺术作品，但它实际上在幕后所做的是“清理”图像！不过，它比手机图像编辑器中的噪点消除滑块复杂得多。它实际上了解世界的样子、了解书面语言，并利用这些来指导（噪点消除）过程。例如，想象一下，如果我给了下面左边的图像给一位熟练的平面艺术家，并告诉他们这是一幅以H.R。Giger（瑞士画家、雕塑家与布景师，《异形》中的外星生物就是他的作品）的风格描绘的外星人弹吉他的画。我打赌他们可以精心清理它，创造出像右图那样的东西。（这些是稳定扩散的实际图像！)艺术家会利用他们对Giger的艺术作品的了解，以及对世界的了解（例如吉他应该是什么样子以及如何弹奏）来做到这一点。稳定扩散本质上是在做同样的事情！[heading2]“推理步骤”[content]你熟悉大多数艺术生成工具中的“推理步骤”滑块吗？稳定扩散是逐步去除噪点的。这是一个运行25步的例子：外星吉他手的例子更有意义，因为你可以更清楚地看出它应该是什么样子的……但在上图中，起始图像看起来完全无法辨认！实际上，这个充满噪点的外星人例子其实是从过程的大约一半开始取的——它（最开始的图像）实际上也是从完全的噪点开始的！

稳定扩散（Stable Diffusion）是如何运作的

为了生成艺术，我们给稳定扩散提供了一个实际上只是纯噪点的初始图像。但是，相当残忍地?，我们撒谎说：“这是一幅超级充满噪点的H.R。Giger风格的外星人弹吉他的画——你能帮我清理一下吗？”如果你把这个任务交给一个平面艺术家，他们会束手无策——“我帮不了你，这个图像完全无法辨认！”那么稳定扩散是如何做到的呢？在最简单的层面上，答案是它是一个计算机程序，它别无选择，只能做它的事情并为我们生产一些东西。更深层次的答案与这样一个事实有关，即稳定扩散等AI模型（从技术上讲，“机器学习”模型）在很大程度上基于统计数据。它们估计所有选项的概率，即使所有选项的正确概率都极低，它们仍然只会选择概率最高的路径。例如，它对吉他可能出现在图像中的位置有一些理解，并且它可以寻找哪部分噪点最可能像是吉他边缘的部分（即使实际上没有“正确”的选择），然后开始填充物体。因为没有正确的答案，每次你给它一个不同的纯噪点图像，它都会创作出不同的艺术作品！

第二课《ComfyUI基础知识》 By 郭佑萌 @ ?WaytoAGI 2024.8.15 .pdf

UNET是从噪音中生成图像的主要组件，在预测过程中，通过反复调用UNET，将UNET预测输出的noise slice从原有的噪声中去除，得到逐步去噪后的图像表示。Stable Diffusion Model的UNET包含约860M的参数，以float32的精度编码大概需要3.4G的存储空间。（source:zhuanlan.zhihu.com/p/582266032）核心的组件CLIP将用户输入的Prompt文本转化成text embeddingUNET UNET进行迭代降噪，在文本引导下进行多轮预测扩散模型在传统扩散模型中，反向扩散过程通过U-Net结构将全尺寸图像逐步传递，从而获得最终的去噪结果。然而，这种迭代性质在计算效率上带来了挑战，特别是在处理大尺寸图像和大量扩散步骤(T)时。在采样过程中，从高斯噪声中去噪图像可能需要很长时间。为了解决这一问题，一组研究人员提出了一种新的方法，称为稳定扩散（Stable Diffusion），最初称为潜在扩散模型（Latent Diffusion Models）CheckpointComfyUI存放路径：models/checkpoints/SD基础预训练模型SD1.5SDXLSD微调模型模型实例SD1.5【majicMIX realistic麦橘写实V7】by麦橘MERJIC----sd1.5微调SDXL【LEOSAM HelloWorld新世界】by LEOSAM是只兔狲----SDXL微调训练方法DreamBooth，by Google格式EMA-only & pruned VS FullEMA-only & pruned只画图Full画图和微调训练