Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

Stable Diffusion

Answer

稳定扩散(Stable Diffusion)的运作原理如下:

  • 消除图像中的噪点:如果拍照太暗会产生噪点,而 Stable Diffusion 用于生成艺术作品时会在幕后“清理”图像。它比手机图像编辑器中的噪点消除滑块复杂得多,它了解世界的样子和书面语言,并以此指导噪点消除过程。例如,给它一幅以 H.R. Giger 风格描绘的外星人弹吉他的画,它能像熟练的平面艺术家一样进行清理。
  • 推理步骤:稳定扩散是逐步去除噪点的,有“推理步骤”滑块。例如一个运行 25 步的例子,外星吉他手的例子更能清晰展示其效果。
  • 开始方式:为了生成艺术,给 Stable Diffusion 提供的初始图像实际上只是纯噪点,并告知它这是一幅特定风格的画。在最简单层面,它作为计算机程序会执行任务。更深层次,它基于统计数据,估计所有选项的概率,即使概率都极低,也会选择概率最高的路径,例如寻找噪点中最可能像吉他边缘的部分来填充物体。每次给它不同的纯噪点图像,都会创作出不同的艺术作品。

此外,UNET 是从噪音中生成图像的主要组件,在预测过程中,通过反复调用 UNET,将其预测输出的 noise slice 从原有的噪声中去除,得到逐步去噪后的图像表示。Stable Diffusion Model 的 UNET 包含约 860M 的参数,以 float32 的精度编码大概需要 3.4G 的存储空间。

ComfyUI 中的相关内容:

  • CLIP 将用户输入的 Prompt 文本转化成 text embedding,UNET 进行迭代降噪,在文本引导下进行多轮预测。
  • 稳定扩散最初称为潜在扩散模型,解决了传统扩散模型在处理大尺寸图像和大量扩散步骤时计算效率的问题。
  • Checkpoint 的 ComfyUI 存放路径:models/checkpoints/,包括 SD 基础预训练模型(如 SD1.5、SDXL)、SD 微调模型等。训练方法有 DreamBooth 等,格式有 EMA-only & pruned(只画图)和 Full(画图和微调训练)。
Content generated by AI large model, please carefully verify (powered by aily)

References

稳定扩散(Stable Diffusion)是如何运作的

你熟悉大多数艺术生成工具中的“推理步骤”滑块吗?稳定扩散是逐步去除噪点的。这是一个运行25步的例子:外星吉他手的例子更有意义,因为你可以更清楚地看出它应该是什么样子的……但在上图中,起始图像看起来完全无法辨认!实际上,这个充满噪点的外星人例子其实是从过程的大约一半开始取的——它(最开始的图像)实际上也是从完全的噪点开始的!

稳定扩散(Stable Diffusion)是如何运作的

为了生成艺术,我们给稳定扩散提供了一个实际上只是纯噪点的初始图像。但是,相当残忍地😏,我们撒谎说:“这是一幅超级充满噪点的H.R。Giger风格的外星人弹吉他的画——你能帮我清理一下吗?”如果你把这个任务交给一个平面艺术家,他们会束手无策——“我帮不了你,这个图像完全无法辨认!”那么稳定扩散是如何做到的呢?在最简单的层面上,答案是它是一个计算机程序,它别无选择,只能做它的事情并为我们生产一些东西。更深层次的答案与这样一个事实有关,即稳定扩散等AI模型(从技术上讲,“机器学习”模型)在很大程度上基于统计数据。它们估计所有选项的概率,即使所有选项的正确概率都极低,它们仍然只会选择概率最高的路径。例如,它对吉他可能出现在图像中的位置有一些理解,并且它可以寻找哪部分噪点最可能像是吉他边缘的部分(即使实际上没有“正确”的选择),然后开始填充物体。因为没有正确的答案,每次你给它一个不同的纯噪点图像,它都会创作出不同的艺术作品!

第二课 《ComfyUI基础知识》 By 郭佑萌 @ 🌈WaytoAGI 2024.8.15 .pdf

UNET是从噪音中生成图像的主要组件,在预测过程中,通过反复调用UNET,将UNET预测输出的noise slice从原有的噪声中去除,得到逐步去噪后的图像表示。Stable Diffusion Model的UNET包含约860M的参数,以float32的精度编码大概需要3.4G的存储空间。(source:zhuanlan.zhihu.com/p/582266032)核心的组件CLIP将用户输入的Prompt文本转化成text embeddingUNET UNET进行迭代降噪,在文本引导下进行多轮预测扩散模型在传统扩散模型中,反向扩散过程通过U-Net结构将全尺寸图像逐步传递,从而获得最终的去噪结果。然而,这种迭代性质在计算效率上带来了挑战,特别是在处理大尺寸图像和大量扩散步骤(T)时。在采样过程中,从高斯噪声中去噪图像可能需要很长时间。为了解决这一问题,一组研究人员提出了一种新的方法,称为稳定扩散(Stable Diffusion),最初称为潜在扩散模型(Latent Diffusion Models)CheckpointComfyUI存放路径:models/checkpoints/SD基础预训练模型SD1.5SDXLSD微调模型模型实例SD1.5【majicMIX realistic麦橘写实V7】by麦橘MERJIC----sd1.5微调SDXL【LEOSAM HelloWorld新世界】by LEOSAM是只兔狲----SDXL微调训练方法DreamBooth,by Google格式EMA-only & pruned VS FullEMA-only & pruned只画图Full画图和微调训练

Others are asking
stable diffusion是免费还是收费
Stable Diffusion 是开源免费的。其具有以下特点和使用规则: 优势在于开源免费、可以本地化部署、创作自由度很高,但需要较好的电脑配置,尤其是显卡。 所有代码均在 GitHub 上公开,大家可以拷贝使用。 免费用于非商业用途:个人和组织可以免费将该模型用于非商业用途,包括科学研究。 免费用于商业用途(年收入高达 100 万美元):初创公司、中小型企业和创作者可以免费将该模型用于商业目的,只要其年总收入低于 100 万美元。对于年收入超过 100 万美元的组织,需联系相关方咨询企业许可证。
2025-03-05
Stable Diffusion 教程
以下是关于 Stable Diffusion 的教程: Stable Diffusion 是什么: 稳定扩散(Stable Diffusion)是一个 AI 自动生成图片的软件,通过输入文字就能生成对应的图片。 入门教程: 新人视频教程:https://waytoagi.feishu.cn/wiki/O5jEwgZIRiQ10xkqGOQcKtSBnSe 文字教程:https://zhuanlan.zhihu.com/p/622238031 模型网站: C 站SD 模型网站:https://civitai.com/ Liblibai模型+在线 SD:https://www.liblib.ai/ huggingface:https://huggingface.co/models?pipeline_tag=texttoimage&sort=trending 吐司站:https://tusiart.com/ 推荐模型:人像摄影模型介绍:https://www.bilibili.com/video/BV1DP41167bZ 为什么要学 Stable Diffusion 及其强大之处: 学习 Stable Diffusion 非常简单,目的是花更少时间快速入门。 它可以生成真人 AI 美女、头像、壁纸,辅助绘画,还能用于恢复画质、室内设计等,有很多功能和应用场景。 希望以上内容对您有所帮助。
2025-03-04
Stable Diffusion 模型在哪
Stable Diffusion 模型可以从以下几个地方获取和存放: 1. 部分常用的大模型可以在分享的链接中获取,大家可以根据文件夹名称找到需要的模型。 2. 大多数模型可以在 Civitai(C 站)这个网站(https://civitai.com/)下载。下载方法如下: 科学上网(自行解决)。 点击右上角的筛选按钮,在框框里面找到自己需要的模型类型,如 Checkpoint=大模型、LoRA=Lora 等。 看照片,看到感兴趣的点进去,点击右边的“Download”保存到电脑本地。 3. 模型存放位置: 大模型:SD 根目录,即下载存放 SD 的那个文件夹。 Lora: VAE: 4. 如果不知道下载的模型是哪个类型,不知道要放到哪个文件夹,可以使用秋叶的模型解析工具(https://spell.novelai.dev/),把模型拖动到空白处,会自动弹出模型的信息。 另外,ComfyUI 存放路径:models/checkpoints/ 。
2025-03-04
本地部署stable-diffusion
以下是关于本地部署 Stable Diffusion 的详细步骤: 1. 准备工作: 电脑配置需能支持 SD 运行。 2. 下载整合包: 可以选择 B 站秋叶分享的整合包,链接:https://pan.baidu.com/s/1hY8CKbYRAj9RrFGmswdNiA?pwd=caru ,提取码:caru 。 3. 安装整合包: 打开链接,下载《1.整合包安装》,存放到电脑本地。 打开保存到电脑里的文件夹。 打开文件夹《1.秋叶整合包主包》,鼠标右击文件,点击“解压文件”。 选择解压到 D 盘或者 E 盘,避免 C 盘被占满,点击确定。 解压完成后,来到第二个文件夹,双击里面的文件,点击安装。 打开刚刚解压保存的 SD 的根目录,找到启动器,鼠标右击启动器,点击“发送到”,选择桌面快捷方式,方便下次进入。 4. 启动和配置: 双击启动器,等待更新,接着点击左边第二个“高级选项”。 在显存优化里,根据自己电脑的显存选择(即查看的专用 GPU 内存)。 回到第一个一键启动,点击右下角的一键启动。 若出现报错,可回到最开始的界面,在左边点击“疑难解答”,再点击右边的“开始扫描”,最后点击“修复”按钮。 5. 注意事项: 并不是指定了显存优化量就一定不会超显存,在出图时如果启动了过多的优化项(如高清修复、人脸修复、过大模型)时,依然有超出显存导致出图失败的几率。 xFormers 能极大地改善内存消耗和速度,建议开启。 Stable Diffusion webui 的更新比较频繁,可根据需求在“版本管理”目录下更新。 同样地,也请注意插件的更新。在 webui 的“扩展”选项卡下,可以安装插件。点击“加载自”后,目录会刷新,选择需要的插件点击右侧的 install 即可安装。安装完毕后,需要重新启动用户界面。
2025-03-02
关于Stable Diffusion,个人本地附属,对机器的配置要求
Stable Diffusion 本地化部署对机器配置有一定要求: 1. 电脑系统:需为 Win10 或者 Win11,避免使用更低版本的系统。查看电脑系统的方法为在桌面上找到“我的电脑”,鼠标右键点击,点击“属性”,查看 Windows 规格。 2. 电脑性能: 运行内存:8GB 以上。查看方法为鼠标右击桌面底部任务栏,点击“任务管理器”,在“性能”里面找到“内存”,只要看图中划线的参数即可。8GB 勉强达到标准,16GB 可正常使用,32GB 能非常自由地使用。 显卡:需为英伟达(俗称 N 卡)的显卡,显卡内存 4GB 以上。查看方法为在任务管理器中先看右上角显卡的名字或型号,确认是 NVIDIA 后,再查看显存,4GB 显存可运行 SD,推荐 8GB 以上显存。 如果电脑配置不够,可选择云端部署(Mac 也推荐云端部署),或者先试试简单的无界 AI。
2025-02-27
stable diffusion学习
以下是关于 Stable Diffusion 学习的相关内容: 一、为什么要学 Stable Diffusion 以及它的强大之处 简单来说,Stable Diffusion 是一个 AI 自动生成图片的软件。通过输入文字就能生成对应的图片,无需像以前那样画图或拍照。学习它非常简单,目的是花更少时间快速入门。如果时间充裕,了解其原理也可以。 二、学习 SD 的 Web UI 步骤 1. 安装必要的软件环境 安装 Git 用于克隆源代码。 安装 Python 3.10.6 版本,确保勾选“Add Python 3.10 to PATH”选项。 安装 Miniconda 或 Anaconda 创建 Python 虚拟环境。 2. 克隆 Stable Diffusion Web UI 源代码 打开命令行工具,输入命令 git clone https://github.com/AUTOMATIC1111/stablediffusionwebui.git,将源代码克隆到本地目录。 3. 运行安装脚本 进入 stablediffusionwebui 目录。 运行 webuiuser.bat 或 webui.sh 脚本,它会自动安装依赖项并配置环境。等待安装完成,命令行会显示 Web UI 的访问地址。 4. 访问 Web UI 界面 复制命令行显示的本地 Web 地址,在浏览器中打开,即可进入 Stable Diffusion Web UI 的图形化界面。 5. 学习 Web UI 的基本操作 了解 Web UI 的各种设置选项,如模型、采样器、采样步数等。 尝试生成图像,观察不同参数对结果的影响。 学习使用提示词(prompt)来控制生成效果。 6. 探索 Web UI 的扩展功能 了解 Web UI 支持的各种插件和扩展,如 Lora、Hypernetwork 等。 学习如何导入自定义模型、VAE、embedding 等文件。 掌握图像管理、任务管理等技巧,提高工作效率。 三、Stable Diffusion 的原理及相关组件 1. 在传统扩散模型中存在计算效率挑战,Stable Diffusion 是为解决此问题提出的新方法,最初称为潜在扩散模型。 2. Stable Diffusion 是扩散模型的变体,核心组件包括: CLIP:将用户输入的 Prompt 文本转化成 text embedding。 VAE EncoderDecoder。 UNET:进行迭代降噪,在文本引导下进行多轮预测。 此外,还涉及 ComfyUI 存放路径、不同的模型(如 SD1.5、SDXL)、训练方法(如 DreamBooth)、模型格式(如.pt 和.safetensor)、微调模型、融合模型等内容。
2025-02-16
stable difussion 可以生成视频吗
Stable Diffusion 中的 Stable Video Diffusion 可以生成视频。 Stable Video Diffusion 是 Stability AI 于 2023 年 11 月 21 日发布的视频生成式大模型,它是一种用于高分辨率、先进的文本到视频和图像到视频生成的潜在视频扩散模型。该模型不仅支持文本、图像生成视频,还支持多视角渲染和帧插入提升视频帧率。用户可以调整模型选择、视频尺寸、帧率及镜头移动距离等参数。 当时,Stable Video Diffusion 开源了两种图生视频的模型,一种是能够生成 14 帧的 SVD,另一种则是可以生成 25 帧的 SVDXL。在以基础形式发布时,通过外部评估,发现这些模型超越了人类偏好研究中领先的封闭模型。 其主要贡献包括:提出一个系统的数据管理工作流程,将大量未经管理的视频集合转变为用于生成视频建模的高质量数据集;使用此工作流程,训练最先进的文本到视频和图像到视频模型,其性能优于所有现有模型;通过进行特定领域的实验来探索 SVD 模型中运动和 3D 理解的强先验。具体来说,预训练的视频扩散模型可以转变为强大的多视图生成器,这可能有助于克服 3D 领域中的数据稀缺问题。 Stability AI 还推出了基于 Discord 的媒体生成和编辑工具,其中的视频功能基于初始图像使用 Stable Video Diffusion 生成短视频。 在云部署实战方面,关于上面的两个模型依赖权重可在百度网盘获取,关注公众号「魔方 AI 空间」,回复【SVD】即可。手动下载下来后,分别放到指定路径。在准备工作做好后,再次运行,复制 url 到浏览器中打开。点击下拉箭头,可以选择不同模型版本,再勾选 load Model。SVD 本地部署目前仅支持图生视频,图片来源可以选择 AI 绘画工具如 Midjourney、Stable Diffusion 等生成图片,然后再上传到 SVD 进行视频的生成,同时可以调左侧的一些参数,控制视频的生成效果。视频生成的保存路径在 outputs 下。 但需要注意的是,SVD 模型对硬件要求较高,对于缺乏硬件资源的普通用户有一定限制,同时其支持的图片尺寸较小,限制了它的应用场景。尽管 SVD 与其他商用产品在帧率、分辨率、内容控制、风格选择和视频生成时长等方面存在差距,但其开源属性和对大规模数据的有效利用构成了其独特优势。
2025-02-25