直达「 通往AGI之路 」飞书知识库 →
首页/问答列表/问答详情

stable diffusion

回答

稳定扩散(Stable Diffusion)的运作原理如下:

  • 消除图像中的噪点:
    • 如同在太暗环境拍照产生的颗粒状噪点,Stable Diffusion 用于生成艺术作品时会在幕后“清理”图像。它比手机图像编辑器中的噪点消除滑块复杂得多,不仅了解世界的样子和书面语言,还能利用这些来指导噪点消除过程。例如,就像平面艺术家利用对特定风格和事物的了解来清理图像一样,Stable Diffusion 本质上也在做类似的事情。
    • 对于“推理步骤”,它是逐步去除噪点的。例如运行 25 步的例子中,起始图像可能完全无法辨认,但它实际上是从完全的噪点开始的。
  • 开始生成的方式:为了生成艺术,给 Stable Diffusion 提供的初始图像实际上只是纯噪点,然后让其进行清理。从简单层面看,它作为计算机程序会执行任务并生成内容。更深层次来说,它基于统计数据,估计所有选项的概率,即使正确概率极低,也会选择概率最高的路径,例如寻找噪点中最可能像吉他边缘的部分来填充物体。每次给它不同的纯噪点图像,都会创作出不同的艺术作品。

此外,UNET 是从噪音中生成图像的主要组件,通过反复调用 UNET 去除噪声得到逐步去噪后的图像表示。Stable Diffusion Model 的 UNET 包含约 860M 的参数。CLIP 将用户输入的 Prompt 文本转化成 text embedding,UNET 在文本引导下进行多轮迭代降噪预测。稳定扩散最初称为潜在扩散模型,是为解决传统扩散模型在计算效率上的挑战而提出的。ComfyUI 中存放路径为 models/checkpoints/,有 SD 基础预训练模型如 SD1.5、SDXL 以及微调模型,训练方法有 DreamBooth 等,格式包括 EMA-only & pruned 和 Full 等。

内容由 AI 大模型生成,请仔细甄别(powered by aily)

参考资料

稳定扩散(Stable Diffusion)是如何运作的

如果您曾尝试在太暗的情况下拍照,而拍出的照片全是颗粒状,那么这种颗粒状就是图像中“噪点”的一个例子。我们使用Stable Diffusion来生成艺术作品,但它实际上在幕后所做的是“清理”图像!不过,它比手机图像编辑器中的噪点消除滑块复杂得多。它实际上了解世界的样子、了解书面语言,并利用这些来指导(噪点消除)过程。例如,想象一下,如果我给了下面左边的图像给一位熟练的平面艺术家,并告诉他们这是一幅以H.R。Giger(瑞士画家、雕塑家与布景师,《异形》中的外星生物就是他的作品)的风格描绘的外星人弹吉他的画。我打赌他们可以精心清理它,创造出像右图那样的东西。(这些是稳定扩散的实际图像!)艺术家会利用他们对Giger的艺术作品的了解,以及对世界的了解(例如吉他应该是什么样子以及如何弹奏)来做到这一点。稳定扩散本质上是在做同样的事情![heading2]“推理步骤”[content]你熟悉大多数艺术生成工具中的“推理步骤”滑块吗?稳定扩散是逐步去除噪点的。这是一个运行25步的例子:外星吉他手的例子更有意义,因为你可以更清楚地看出它应该是什么样子的……但在上图中,起始图像看起来完全无法辨认!实际上,这个充满噪点的外星人例子其实是从过程的大约一半开始取的——它(最开始的图像)实际上也是从完全的噪点开始的!

稳定扩散(Stable Diffusion)是如何运作的

为了生成艺术,我们给稳定扩散提供了一个实际上只是纯噪点的初始图像。但是,相当残忍地😏,我们撒谎说:“这是一幅超级充满噪点的H.R。Giger风格的外星人弹吉他的画——你能帮我清理一下吗?”如果你把这个任务交给一个平面艺术家,他们会束手无策——“我帮不了你,这个图像完全无法辨认!”那么稳定扩散是如何做到的呢?在最简单的层面上,答案是它是一个计算机程序,它别无选择,只能做它的事情并为我们生产一些东西。更深层次的答案与这样一个事实有关,即稳定扩散等AI模型(从技术上讲,“机器学习”模型)在很大程度上基于统计数据。它们估计所有选项的概率,即使所有选项的正确概率都极低,它们仍然只会选择概率最高的路径。例如,它对吉他可能出现在图像中的位置有一些理解,并且它可以寻找哪部分噪点最可能像是吉他边缘的部分(即使实际上没有“正确”的选择),然后开始填充物体。因为没有正确的答案,每次你给它一个不同的纯噪点图像,它都会创作出不同的艺术作品!

第二课 《ComfyUI基础知识》 By 郭佑萌 @ 🌈WaytoAGI 2024.8.15 .pdf

UNET是从噪音中生成图像的主要组件,在预测过程中,通过反复调用UNET,将UNET预测输出的noise slice从原有的噪声中去除,得到逐步去噪后的图像表示。Stable Diffusion Model的UNET包含约860M的参数,以float32的精度编码大概需要3.4G的存储空间。(source:zhuanlan.zhihu.com/p/582266032)核心的组件CLIP将用户输入的Prompt文本转化成text embeddingUNET UNET进行迭代降噪,在文本引导下进行多轮预测扩散模型在传统扩散模型中,反向扩散过程通过U-Net结构将全尺寸图像逐步传递,从而获得最终的去噪结果。然而,这种迭代性质在计算效率上带来了挑战,特别是在处理大尺寸图像和大量扩散步骤(T)时。在采样过程中,从高斯噪声中去噪图像可能需要很长时间。为了解决这一问题,一组研究人员提出了一种新的方法,称为稳定扩散(Stable Diffusion),最初称为潜在扩散模型(Latent Diffusion Models)CheckpointComfyUI存放路径:models/checkpoints/SD基础预训练模型SD1.5SDXLSD微调模型模型实例SD1.5【majicMIX realistic麦橘写实V7】by麦橘MERJIC----sd1.5微调SDXL【LEOSAM HelloWorld新世界】by LEOSAM是只兔狲----SDXL微调训练方法DreamBooth,by Google格式EMA-only & pruned VS FullEMA-only & pruned只画图Full画图和微调训练

其他人在问
我有一张图像,我要如何用stable Diffusion给它添加噪音。我是一个小白,请给出详细的步骤,用webui来操作。
以下是使用 WebUI 为图像添加噪音的详细步骤: 1. 首先,了解 Stable Diffusion 的加噪原理。从数据集中选择一张干净样本,然后用 random 函数生成 0 3 共 4 种强度的噪声,在每次迭代中随机选择一种强度的噪声添加到干净图片上,完成图片的加噪流程。 2. 在训练过程中,对干净样本进行加噪处理,采用多次逐步增加噪声的方式,直至干净样本转变成为纯噪声。 3. 加噪过程中,每次增加的噪声量级可以不同,假设存在 5 种噪声量级,每次都可以选取一种量级的噪声,以增加噪声的多样性。 4. 与图片生成图片的过程相比,在预处理阶段,先把噪声添加到隐空间特征中。通过设置去噪强度(Denoising strength)控制加入噪音的量。如果去噪强度为 0 ,则不添加噪音;如果为 1 ,则添加最大数量的噪声,使潜像成为一个完整的随机张量。若将去噪强度设置为 1 ,就完全相当于文本转图像,因为初始潜像完全是随机的噪声。
2024-11-18
我有一张图像,我要如何用stable Diffusion给它添加噪音
要使用 Stable Diffusion 给一张图像添加噪音,以下是相关的原理和过程: 在 Stable Diffusion 中,与 GAN 等生成式模型一样,它学习拟合训练集分布,并能够生成与训练集分布相似的输出结果。但与 GAN 相比,SD 模型训练过程更稳定,且具备更强的泛化性能,这归功于其核心的前向扩散过程和反向扩散过程。 在前向扩散过程中,SD 模型持续对一张图像添加高斯噪声直至变成随机噪声矩阵。而在反向扩散过程中,SD 模型进行去噪声过程,将一个随机噪声矩阵逐渐去噪声直至生成一张图像。 Stable Diffusion 的整个训练过程在最高维度上可以看成是如何加噪声和如何去噪声的过程,并在针对噪声的“对抗与攻防”中学习到生成图片的能力。 其训练逻辑为: 1. 从数据集中随机选择一个训练样本。 2. 从 K 个噪声量级随机抽样一个 timestep t。 3. 将 timestep t 对应的高斯噪声添加到图片中。 4. 将加噪图片输入 UNet 中预测噪声。 5. 计算真实噪声和预测噪声的 L2 损失。 6. 计算梯度并更新 SD 模型参数。 在训练时,需要把加噪的数据集输入模型中,每一次迭代用 random 函数生成从强到弱各个强度的噪声,通常会生成 0 1000 一共 1001 种不同的噪声强度,通过 Time Embedding 嵌入到训练过程中。Time Embedding 由 Timesteps(时间步长)编码而来,引入 Timesteps 能够模拟一个随时间逐渐向图像加入噪声扰动的过程。每个 Timestep 代表一个噪声强度(较小的 Timestep 代表较弱的噪声扰动,而较大的 Timestep 代表较强的噪声扰动),通过多次增加噪声来逐渐改变干净图像的特征分布。 以下是一个简单的加噪声流程示例:首先从数据集中选择一张干净样本,然后再用 random 函数生成 0 3 一共 4 种强度的噪声,然后每次迭代中随机一种强度的噪声,增加到干净图片上,完成图片的加噪流程。 在训练过程中,首先对干净样本进行加噪处理,采用多次逐步增加噪声的方式,直至干净样本转变成为纯噪声。接着,让 SD 模型学习去噪过程,最后抽象出一个高维函数,这个函数能在纯噪声中不断“优化”噪声,得到一个干净样本。其中,将去噪过程具像化,就得到使用 UNet 预测噪声,并结合 Schedule 算法逐步去噪的过程。加噪和去噪过程都是逐步进行的,假设进行 K 步,那么每一步,SD 都要去预测噪声,从而形成“小步快跑的稳定去噪”。与此同时,在加噪过程中,每次增加的噪声量级可以不同,假设有 5 种噪声量级,那么每次都可以取一种量级的噪声,增加噪声的多样性。
2024-11-18
stable diffusion
稳定扩散(Stable Diffusion)的运作原理如下: 消除图像中的噪点: 以消除图像噪点为基础来生成艺术作品。它比手机图像编辑器中的噪点消除滑块复杂得多,不仅了解世界的样子和书面语言,还能利用这些来指导噪点消除过程。例如,就像平面艺术家利用对特定风格和事物的了解来清理图像一样,稳定扩散本质上做着类似的事情。 大多数艺术生成工具中有“推理步骤”滑块,稳定扩散是逐步去除噪点的。 起始方式: 为了生成艺术,给稳定扩散提供的初始图像实际上只是纯噪点,但声称这是一幅特定风格的画,让其进行清理。在最简单层面,它作为计算机程序会执行任务。更深层次,稳定扩散等 AI 模型基于统计数据,估计所有选项的概率,即使概率极低,也会选择概率最高的路径,例如寻找噪点中最可能像吉他边缘的部分来填充物体。每次输入不同纯噪点图像,都会创作出不同艺术作品。 ComfyUI 的生图原理: Pixel Space(像素空间):图的左边表示输入图像的像素空间,在 ComfyUI 中,对应于可能通过“图像输入”模块或直接从文本提示生成的随机噪声图像,生成过程结束时会将处理后的潜在表示转换回像素空间生成最终图像。 Latent Space(潜在空间):ComfyUI 中的许多操作都在潜在空间中进行,如 KSampler 节点执行采样过程,图像被映射到潜在空间后,扩散过程在这个空间中进行,可通过节点调整对潜在空间的操作,如噪声添加、去噪步数等,通常由潜在空间操作模块实现。 扩散过程(Diffusion Process): 噪声的生成和逐步还原:扩散过程表示从噪声生成图像的过程,在 ComfyUI 中通常通过调度器控制,如 Normal、Karras 等,可通过“采样器”节点选择不同调度器来控制如何在潜在空间中处理噪声及逐步去噪回归到最终图像。 时间步数:在生成图像时,扩散模型会进行多个去噪步,在 ComfyUI 中可通过控制步数来影响图像生成的精细度和质量。
2024-11-15
stable diffusion
稳定扩散(Stable Diffusion)的运作原理如下: 消除图像中的噪点: 如同在太暗环境拍照产生的颗粒状噪点,Stable Diffusion 用于生成艺术作品时会在幕后“清理”图像,它比手机图像编辑器中的噪点消除滑块复杂得多,它了解世界的样子和书面语言,并以此指导噪点消除过程。例如,给它一幅以 H.R. Giger 风格描绘的外星人弹吉他的画,它能像熟练的平面艺术家一样进行清理。 大多数艺术生成工具中有“推理步骤”滑块,稳定扩散是逐步去除噪点的。 起始运作方式:为生成艺术,给稳定扩散提供纯噪点的初始图像,它基于统计数据估计所有选项的概率,即使正确概率极低,仍会选择概率最高的路径。例如,它对吉他在图像中的位置有一定理解,会寻找噪点中最可能像吉他边缘的部分进行填充,且每次给不同的纯噪点图像都会创作出不同作品。 相关组件和模型: UNET 是从噪音中生成图像的主要组件,在预测过程中通过反复调用 UNET,将其预测输出的 noise slice 从原有的噪声中去除,得到逐步去噪后的图像表示。Stable Diffusion Model 的 UNET 包含约 860M 的参数,以 float32 的精度编码大概需要 3.4G 的存储空间。 CLIP 将用户输入的 Prompt 文本转化成 text embedding,UNET 进行迭代降噪,在文本引导下进行多轮预测。 传统扩散模型在处理大尺寸图像和大量扩散步骤时存在计算效率问题,稳定扩散(最初称为潜在扩散模型)是为解决此问题提出的新方法。 存放路径和模型实例: ComfyUI 存放路径:models/checkpoints/SD 基础预训练模型,包括 SD1.5、SDXL 以及 SD 微调模型。 模型实例有【majicMIX realistic 麦橘写实 V7】(sd1.5 微调)、【LEOSAM HelloWorld 新世界】(SDXL 微调)等。 训练方法:DreamBooth(by Google) 格式:EMAonly & pruned 只画图,Full 可画图和微调训练。
2024-11-09
stable diffusion 绘画
以下是关于 Stable Diffusion 绘画的相关内容: 如果您是运营网店的女装店主,在没有资金请模特的情况下,可以用 Stable Diffusion 来制作商品展示图。具体步骤如下: 1. 真人穿衣服拍照,并获取具有真实质感的照片。若身材方面有问题,可借助美图秀秀或 PS 处理。 2. 选好底模,一定要是 realistic 的、真人照片风格的底模,如 majicmixRealistic_v7。 3. 进行换头操作,根据不同平台需求更换,如面向海外市场换白女头,面向中老妇女换妈妈头。 4. 在图生图下的局部重绘选项卡下涂抹自己替换的部分,并设置好 prompts 和 parameters,如“breathtaking cinematic photo, masterpiece, best quality, , blonde hair, silver necklace, carrying a white bag, standing, full body, detailed face, big eyes, detailed hands”。 关于 Stable Diffusion 的工作原理,就像学习画画临摹梵高的作品一样。您花四十年学习的梵高风格相当于 Stable Diffusion 的大模型——Checkpoint。人们将成千上万美术风格的作品练成模型放入 AI 中,AI 就能依照模型画出类似风格的作品。要画出符合心意的作品,首先要选对合适的大模型。大模型可在 C 站(https://civitai.com/)下载,但需要科学上网。有真实系的(Chillmixout)、二次元的(anything)、游戏 CG 风(ReV Animated)等。 用 Stable Diffusion 时,可以把自己想象成画家。在起笔前要确定照片风格,如二次元动漫、三次元现实照片或盲盒模型。确定风格后切换大模型,不同模型代表不同照片风格,即 SD 界面左上角的“Stable Diffusion 模型”。若想生成真人 AI 小姐姐,可选用 chilloutmix 的大模型。关于模型的获取和存放位置,后续会详细介绍。
2024-11-08
Mac部署stable diffusion
在 Mac 上部署 Stable Diffusion 存在一定限制,功能可能不全且出错率偏高,严重影响使用体验。个人建议升级设备或者采用云服务器玩耍。 如果您仍想在 Mac 上部署,可以参考以下步骤: 1. 电脑硬件要求: 系统:无明确针对 Mac 的特定系统要求。 显卡:未明确针对 Mac 的显卡要求。 硬盘:留有足够的空间,最低 100G 起步(包括模型)。 2. 环境安装: 未提供 Mac 系统下的具体环境安装步骤。 由于 Mac 系统的特殊性,更推荐您采用云端部署的方式,相关教程可参考:https://qa3dhma45mc.feishu.cn/wiki/A6WYw1Nm0ikGplkuO9Ecwomqnnd
2024-11-06