Stable Diffusion 是一种扩散模型的变体,最初称为潜在扩散模型(Latent Diffusion Models)。它是一个 AI 自动生成图片的软件,通过用户输入文字就能生成对应的图片。其核心组件包括将用户输入的 Prompt 文本转化成 text embedding 的 CLIP、VAE Encoder-Decoder 以及进行迭代降噪并在文本引导下进行多轮预测的 UNET 等。
在硬件要求方面,建议使用不少于 16GB 内存,并有 60GB 以上的硬盘空间,需要用到 CUDA 架构,推荐使用 N 卡。目前也有对 A 卡的相关支持,但运算速度明显慢于 N 卡。在训练方面,不同模型有不同的训练要求,例如 SD1.5 训练要求 12G VARM,SDXL 训练要求 16G VARM。此外,还有诸如模型实例、融合模型、微调模型等相关内容。
的去噪结果。然而,这种迭代性质在计算效率上带来了挑战,特别是在处理大尺寸图像和大量扩散步骤(T)时。在采样过程中,从高斯噪声中去噪图像可能需要很长时间。为了解决这一问题,一组研究人员提出了一种新的方法,称为稳定扩散(Stable Diffusion),最初称为潜在扩散模型(Latent Diffusion Models)Stable DiffusionStable Diffusion是一种扩散模型(diffusion model)的变体,叫做“潜在扩散模[heading1]型”(Latent Diffusion Models)[content]CLIP将用户输入的Prompt文本转化成text embedding核心的组件VAE Encoder-DecoderUNETUNET进行迭代降噪,在文本引导下进行多轮预测High-Resolution Image Synthesis with Latent Diffusion ModelsComfyUI存放路径:models/checkpoints/SD1.5SD基础预训练模型SDXLSD1.5模型实例SDXL训练方法DreamBooth,by GoogleEMA-only&pruned VS FullFP16&FP32格式.pt VS.safetensorBake in VAE模型自带已适配的VAESD微调模型概念学习Checkpoint作用source:stable-diffusion-art.com/models/#How_are_models_created1puppy训练要求sd1.512G VARMSDXL16G VARMThe merged model sits between the realistic F222 and the anime Anything V3styles.It is a very good model for generating illustration art with human figures.(source:stable-diffusion-art.com/models/#Example_of_a_merged_model)融合模型checkpoint+checkpointLora+Lora形式checkpoint+LoraBaking VAE
简单来说,Stable Diffusion(简称SD)就是一个AI自动生成图片的软件通过我们输入文字,SD就能生成对应的一张图片,不再需要像以前一样要把图片“画”出来,或者是“拍”出有的人说,我学习一个软件之前是不是要先知道它的原理呢?我的回答是:不需要!下面这张图就是我在网上保存的SD的原理图看得懂吗?看不懂,我也看不懂影响使用吗?完全不影响!很多人想学习stable diffusion,上网一搜,大多数教程都先告诉你SD的原理是什么但偏偏就是这一步就劝退了很多人继续学习因为这看起来真的好像很复杂很难但事实是:大多数的我们只是要能够熟练使用SD而不是要深入研究它我们还有自己的学习和工作因此,我们的目的就是花更少的时间快速入门Stable Diffusion当然了,如果你的时间比较充裕,去把SD的原理也了解了也是可以的跟大家说这些是想告诉大家学习SD真的非常简单!!这篇文章就会带大家通过一个个案例,实际上手操作生成各种照片我相信在你看完这篇文章并且自己去尝试过之后你就已经可以快速上手stable diffusion了!!接下来我们就正式开始去使用stable diffusion!!
声明:本文转发自:[腾讯技术工程:Stable Diffusion新手入门手册](https://zhuanlan.zhihu.com/p/619120794),在原文上增加目录,作者:[HkingAuditore](https://www.zhihu.com/people/89ec191d66dc649f66bb0b6f08544eb9)Stable Diffusion介绍:2022年发布的深度学习文字到图像生成模型。它主要用于根据文字的描述产生详细图像,能够在几秒钟内创作出令人惊叹的艺术作品,本文是一篇使用入门教程。[heading2]一、硬件要求[content]建议使用不少于16 GB内存,并有60GB以上的硬盘空间。需要用到CUDA架构,推荐使用N卡。(目前已经有了对A卡的相关支持,但运算的速度依旧明显慢于N卡,参见:[Install and Run on AMD GPUs·AUTOMATIC1111/stable-diffusion-webui Wiki·GitHub](https://link.zhihu.com/?target=https%3A//github.com/AUTOMATIC1111/stable-diffusion-webui/wiki/Install-and-Run-on-AMD-GPUs)过度使用,显卡会有损坏的风险。进行512x图片生成时主流显卡速度对比: