直达「 通往AGI之路 」飞书知识库 →
首页/问答列表/问答详情

Stable Diffusion

回答

稳定扩散(Stable Diffusion)的运作原理如下:

  • 消除图像中的噪点:如果拍照太暗会产生噪点,而 Stable Diffusion 用于生成艺术作品时会在幕后“清理”图像。它比手机图像编辑器中的噪点消除滑块复杂得多,它了解世界的样子和书面语言,并以此指导噪点消除过程。例如,给它一幅以 H.R. Giger 风格描绘的外星人弹吉他的画,它能像熟练的平面艺术家一样进行清理。
  • 推理步骤:稳定扩散是逐步去除噪点的,有“推理步骤”滑块。例如一个运行 25 步的例子,外星吉他手的例子更能清晰展示其效果。
  • 开始方式:为了生成艺术,给 Stable Diffusion 提供的初始图像实际上只是纯噪点,并告知它这是一幅特定风格的画。在最简单层面,它作为计算机程序会执行任务。更深层次,它基于统计数据,估计所有选项的概率,即使概率都极低,也会选择概率最高的路径,例如寻找噪点中最可能像吉他边缘的部分来填充物体。每次给它不同的纯噪点图像,都会创作出不同的艺术作品。

此外,UNET 是从噪音中生成图像的主要组件,在预测过程中,通过反复调用 UNET,将其预测输出的 noise slice 从原有的噪声中去除,得到逐步去噪后的图像表示。Stable Diffusion Model 的 UNET 包含约 860M 的参数,以 float32 的精度编码大概需要 3.4G 的存储空间。

ComfyUI 中的相关内容:

  • CLIP 将用户输入的 Prompt 文本转化成 text embedding,UNET 进行迭代降噪,在文本引导下进行多轮预测。
  • 稳定扩散最初称为潜在扩散模型,解决了传统扩散模型在处理大尺寸图像和大量扩散步骤时计算效率的问题。
  • Checkpoint 的 ComfyUI 存放路径:models/checkpoints/,包括 SD 基础预训练模型(如 SD1.5、SDXL)、SD 微调模型等。训练方法有 DreamBooth 等,格式有 EMA-only & pruned(只画图)和 Full(画图和微调训练)。
内容由 AI 大模型生成,请仔细甄别(powered by aily)

参考资料

稳定扩散(Stable Diffusion)是如何运作的

你熟悉大多数艺术生成工具中的“推理步骤”滑块吗?稳定扩散是逐步去除噪点的。这是一个运行25步的例子:外星吉他手的例子更有意义,因为你可以更清楚地看出它应该是什么样子的……但在上图中,起始图像看起来完全无法辨认!实际上,这个充满噪点的外星人例子其实是从过程的大约一半开始取的——它(最开始的图像)实际上也是从完全的噪点开始的!

稳定扩散(Stable Diffusion)是如何运作的

为了生成艺术,我们给稳定扩散提供了一个实际上只是纯噪点的初始图像。但是,相当残忍地😏,我们撒谎说:“这是一幅超级充满噪点的H.R。Giger风格的外星人弹吉他的画——你能帮我清理一下吗?”如果你把这个任务交给一个平面艺术家,他们会束手无策——“我帮不了你,这个图像完全无法辨认!”那么稳定扩散是如何做到的呢?在最简单的层面上,答案是它是一个计算机程序,它别无选择,只能做它的事情并为我们生产一些东西。更深层次的答案与这样一个事实有关,即稳定扩散等AI模型(从技术上讲,“机器学习”模型)在很大程度上基于统计数据。它们估计所有选项的概率,即使所有选项的正确概率都极低,它们仍然只会选择概率最高的路径。例如,它对吉他可能出现在图像中的位置有一些理解,并且它可以寻找哪部分噪点最可能像是吉他边缘的部分(即使实际上没有“正确”的选择),然后开始填充物体。因为没有正确的答案,每次你给它一个不同的纯噪点图像,它都会创作出不同的艺术作品!

第二课 《ComfyUI基础知识》 By 郭佑萌 @ 🌈WaytoAGI 2024.8.15 .pdf

UNET是从噪音中生成图像的主要组件,在预测过程中,通过反复调用UNET,将UNET预测输出的noise slice从原有的噪声中去除,得到逐步去噪后的图像表示。Stable Diffusion Model的UNET包含约860M的参数,以float32的精度编码大概需要3.4G的存储空间。(source:zhuanlan.zhihu.com/p/582266032)核心的组件CLIP将用户输入的Prompt文本转化成text embeddingUNET UNET进行迭代降噪,在文本引导下进行多轮预测扩散模型在传统扩散模型中,反向扩散过程通过U-Net结构将全尺寸图像逐步传递,从而获得最终的去噪结果。然而,这种迭代性质在计算效率上带来了挑战,特别是在处理大尺寸图像和大量扩散步骤(T)时。在采样过程中,从高斯噪声中去噪图像可能需要很长时间。为了解决这一问题,一组研究人员提出了一种新的方法,称为稳定扩散(Stable Diffusion),最初称为潜在扩散模型(Latent Diffusion Models)CheckpointComfyUI存放路径:models/checkpoints/SD基础预训练模型SD1.5SDXLSD微调模型模型实例SD1.5【majicMIX realistic麦橘写实V7】by麦橘MERJIC----sd1.5微调SDXL【LEOSAM HelloWorld新世界】by LEOSAM是只兔狲----SDXL微调训练方法DreamBooth,by Google格式EMA-only & pruned VS FullEMA-only & pruned只画图Full画图和微调训练

其他人在问
Stable diffusion提示词生成器
以下是关于 Stable diffusion 提示词生成器的相关内容: 1. 描述逻辑:通常包括人物及主体特征(如服饰、发型发色、五官、表情、动作),场景特征(如室内室外、大场景、小细节),环境光照(如白天黑夜、特定时段、光、天空),画幅视角(如距离、人物比例、观察视角、镜头类型),画质(如高画质、高分辨率),画风(如插画、二次元、写实)。通过这些详细的提示词,能更精确地控制绘图。 2. 辅助网站: http://www.atoolbox.net/ ,可通过选项卡方式快速填写关键词信息。 https://ai.dawnmark.cn/ ,每种参数有缩略图参考,方便直观选择提示词。 还可以去 C 站(https://civitai.com/)抄作业,复制每一张图的详细参数粘贴到正向提示词栏,点击生成按钮下的第一个按键,Stable Diffusion 会自动匹配所有参数,但要注意图像作者使用的大模型和 LORA,否则即使参数相同,生成的图也可能不同。也可以选取其中较好的描述词,如人物描写、背景描述、小元素或画面质感等。 3. 充当有艺术气息的 Stable Diffusion prompt 助理:根据给定的主题想象完整画面,转化为详细、高质量的 prompt,包含“Prompt:”和“Negative Prompt:”两部分,用英文半角“,”分隔,negative prompt 描述不想在生成图像中出现的内容。 4. 插件“Easy Prompt Selector”:安装方式是在扩展面板中点击“从网址安装”,输入 https://github.com/bluepen5805/sdwebeasypromptselector 直接安装,将汉化包复制进“……\\sdwebuiakiv4\\extensions”路径文件夹下覆盖,重启 webUI 后,在生成按钮下会多出“提示词”按钮,点击会出现下拉列表,包含很多分类,如点击“人物”会出现常用标签,选择后自动加入正向提示词。
2024-10-31
本站的stable diffusion在哪个分类
Stable Diffusion(简称 SD)属于图片美术类的 AIGC 项目。它是由初创公司 StabilityAI、CompVis 与 Runway 合作开发,2022 年发布的深度学习文本到图像生成模型。其代码模型权重已公开发布,可在多数配备适度 GPU 的电脑硬件上运行,当前版本为 2.1 稳定版(2022.12.7)。源代码库为 github.com/StabilityAI/stablediffusion 。 在分类上,它可以归为 AIGC 常见名词解释中的图片美术类。同时,关于 Stable Diffusion 有很多详细的教程,比如在知乎上有深入浅出完整解析其核心基础知识的内容,包括系列资源、核心基础原理、核心网络结构解析、搭建使用模型进行 AI 绘画、经典应用场景、训练自己的 AI 绘画模型等方面。
2024-10-26
ai视频有没有免费的模型用,就像chatgpt的免费版,stable diffusion也不收钱
在 AI 视频领域,Stability.AI 仍将免费提供其主要检查点作为核心业务宗旨(愿景是开源)。例如,Stability AI 推出了 Stable Diffusion 1.6 的图像模型。 此外,在自然语言模型中,OpenAI 以 GPT3/3.5 和 ChatGPT 占据主导地位,但目前基于 OpenAI 构建的杀手级应用相对较少,且其 API 定价已下调过一次。不过 OpenAI 曾因服务压力太大暂停过 Chat GPT plus 的购买。 同时,还有其他相关动态,如微软发布了 Bing 品牌升级,Bing Chat 和 Bing Chat Enterprise 将成为 Copilot;Fable 发布了利用 LCM 实时生成图片的功能;英伟达发布了 Nemotron3 8B 的 LLM 以及 NVIDIA NeMo 端到端框架;Midjourney 动漫微调模型 Nijijourney 跟进了模型微调;Google 在多个国家推出了面向青少年的 Google Bard;Airbnb 收购了一家名为 Gameplanner AI 的人工智能初创公司。
2024-10-25
stable diffusion 3.5最新资讯
以下是关于 Stable Diffusion 3.5 的最新资讯: Stability AI 刚刚发布了 Stable Diffusion 3.5,其中 8B 的 Large 和 Turbo 已经开放,2B 的 Medium 会在 10 月 29 日发布。 ComfyUI 官方提供了示例工作流,尤其对于 RAM 低于 32GB 的用户,comfyanonymous 制作了额外的 scaled fp8 clip,您可以通过以下链接了解和使用: 如何使用: https://blog.comfy.org/sd35comfyui/ 工作流:https://huggingface.co/ComfyOrg/stablediffusion3.5fp8/tree/main scaled fp8 clip:https://huggingface.co/ComfyOrg/stablediffusion3.5fp8/blob/main/sd3.5_large_fp8_scaled.safetensors 不久之后,ControlNets 也将推出,为各种专业用例提供先进的控制功能。 我们很高兴在许可的社区许可下发布此模型,许可证的关键组成部分包括: 免费用于非商业用途:个人和组织可以免费将该模型用于非商业用途,包括科学研究。 免费用于商业用途(年收入高达 100 万美元):初创公司、中小型企业和创作者可以免费将该模型用于商业目的,只要其年总收入低于 100 万美元。 输出的所有权:保留所生成媒体的所有权,不受限制性许可影响。对于年收入超过 100 万美元的组织,请在此处联系咨询企业许可证。 虽然模型权重现在可以在 Hugging Face 上进行自托管,但您还可以通过以下平台访问模型: 、DeepInfra 深基础设施。 Stability AI 相信安全、负责任的人工智能实践,并采取审慎措施确保诚信从开发的早期阶段开始,已并将继续采取合理的措施来防止不良行为者滥用 Stable Diffusion 3.5。有关安全方法的更多信息,请访问稳定安全页面。
2024-10-23
stable diffusion 3.5最近资讯
以下是关于 Stable Diffusion 3.5 的最近资讯: 1. 10 月 29 日,将公开发布 Stable Diffusion 3.5 Medium。不久之后,ControlNets 也将推出,为各种专业用例提供先进的控制功能。您可以通过。 2. ComfyUI 为 Stable Diffusion 3.5 提供了示例工作流,尤其对于 RAM 低于 32GB 的用户,comfyanonymous 制作了额外的 scaled fp8 clip。使用方法及相关链接如下: 如何使用: https://blog.comfy.org/sd35comfyui/ 工作流:https://huggingface.co/ComfyOrg/stablediffusion3.5fp8/tree/main scaled fp8 clip:https://huggingface.co/ComfyOrg/stablediffusion3.5fp8/blob/main/sd3.5_large_fp8_scaled.safetensors 3. Stability AI 社区许可证关键组成部分: 免费用于非商业用途:个人和组织可免费用于非商业用途,包括科学研究。 免费用于商业用途(年收入高达 100 万美元):初创公司、中小型企业和创作者可免费用于商业目的,只要年总收入低于 100 万美元。 输出的所有权:保留所生成媒体的所有权,不受限制性许可影响。对于年收入超过 100 万美元的组织,请联系咨询企业许可证。 4. 访问模型的更多方式:虽然模型权重现在可在 Hugging Face 上自托管,还可通过以下平台访问模型:。 5. Stability AI 相信安全、负责任的人工智能实践,并采取审慎措施确保诚信从开发早期阶段开始,已并将继续采取合理措施防止不良行为者滥用 Stable Diffusion 3.5。有关安全方法的更多信息,请访问页面。 6. 即将推出更多相关内容。
2024-10-23
stable diffusion 3.5最近资讯
以下是关于 Stable Diffusion 3.5 的最近资讯: 1. 10 月 29 日,将公开发布 Stable Diffusion 3.5 Medium。不久之后,ControlNets 也将推出,为各种专业用例提供先进的控制功能。您可以通过。 2. ComfyUI 为 Stable Diffusion 3.5 提供了示例工作流,尤其对于 RAM 低于 32GB 的用户,comfyanonymous 制作了额外的 scaled fp8 clip。使用方法及相关链接如下: 如何使用: https://blog.comfy.org/sd35comfyui/ 工作流:https://huggingface.co/ComfyOrg/stablediffusion3.5fp8/tree/main scaled fp8 clip:https://huggingface.co/ComfyOrg/stablediffusion3.5fp8/blob/main/sd3.5_large_fp8_scaled.safetensors 3. Stability AI 社区许可证关键组成部分: 免费用于非商业用途:个人和组织可免费用于非商业用途,包括科学研究。 免费用于商业用途(年收入高达 100 万美元):初创公司、中小型企业和创作者可免费用于商业目的,只要年总收入低于 100 万美元。 输出的所有权:保留所生成媒体的所有权,不受限制性许可影响。对于年收入超过 100 万美元的组织,请联系咨询企业许可证。 4. 访问模型的更多方式:虽然模型权重现在可在 Hugging Face 上自托管,还可通过以下平台访问模型:。 5. Stability AI 相信安全、负责任的人工智能实践,并采取审慎措施确保诚信从开发早期阶段开始,已并将继续采取合理措施防止不良行为者滥用 Stable Diffusion 3.5。有关安全方法的更多信息,请访问页面。 6. 即将推出更多相关内容。
2024-10-23