直达「 通往AGI之路 」飞书知识库 →
首页/问答列表/问答详情

stable diffusion

回答

稳定扩散(Stable Diffusion)的运作原理如下:

  • 消除图像中的噪点:如果拍照太暗会产生噪点,而稳定扩散能“清理”图像。它比手机图像编辑器的噪点消除滑块复杂得多,它了解世界的样子和书面语言,并以此指导噪点消除过程。例如,给它一幅以 H.R. Giger 风格描绘的外星人弹吉他的初始图像,它能像熟练的平面艺术家一样进行清理和创作。
  • 推理步骤:稳定扩散是逐步去除噪点的,通过“推理步骤”滑块可以控制。
  • 起始方式:为生成艺术,给稳定扩散提供的初始图像实际上只是纯噪点,然后谎称这是一幅特定风格的画让其清理。从简单层面看,它作为计算机程序会执行任务;从深层次看,它基于统计数据,估计所有选项的概率,即使没有正确答案,每次给不同的纯噪点图像都会创作出不同的作品。

此外,UNET 是从噪音中生成图像的主要组件,在预测过程中通过反复调用 UNET,将其预测输出的 noise slice 从原有的噪声中去除,得到逐步去噪后的图像表示。Stable Diffusion Model 的 UNET 包含约 860M 的参数,以 float32 的精度编码大概需要 3.4G 的存储空间。CLIP 将用户输入的 Prompt 文本转化成 text embedding,UNET 进行迭代降噪,在文本引导下进行多轮预测。稳定扩散最初称为潜在扩散模型,在传统扩散模型中存在计算效率问题,稳定扩散是为解决此问题提出的。ComfyUI 中存放路径为 models/checkpoints/,有 SD 基础预训练模型,如 SD1.5、SDXL 以及微调模型,训练方法有 DreamBooth 等,格式有 EMA-only & pruned 和 Full 两种。

内容由 AI 大模型生成,请仔细甄别(powered by aily)

参考资料

稳定扩散(Stable Diffusion)是如何运作的

你熟悉大多数艺术生成工具中的“推理步骤”滑块吗?稳定扩散是逐步去除噪点的。这是一个运行25步的例子:外星吉他手的例子更有意义,因为你可以更清楚地看出它应该是什么样子的……但在上图中,起始图像看起来完全无法辨认!实际上,这个充满噪点的外星人例子其实是从过程的大约一半开始取的——它(最开始的图像)实际上也是从完全的噪点开始的!

稳定扩散(Stable Diffusion)是如何运作的

为了生成艺术,我们给稳定扩散提供了一个实际上只是纯噪点的初始图像。但是,相当残忍地😏,我们撒谎说:“这是一幅超级充满噪点的H.R。Giger风格的外星人弹吉他的画——你能帮我清理一下吗?”如果你把这个任务交给一个平面艺术家,他们会束手无策——“我帮不了你,这个图像完全无法辨认!”那么稳定扩散是如何做到的呢?在最简单的层面上,答案是它是一个计算机程序,它别无选择,只能做它的事情并为我们生产一些东西。更深层次的答案与这样一个事实有关,即稳定扩散等AI模型(从技术上讲,“机器学习”模型)在很大程度上基于统计数据。它们估计所有选项的概率,即使所有选项的正确概率都极低,它们仍然只会选择概率最高的路径。例如,它对吉他可能出现在图像中的位置有一些理解,并且它可以寻找哪部分噪点最可能像是吉他边缘的部分(即使实际上没有“正确”的选择),然后开始填充物体。因为没有正确的答案,每次你给它一个不同的纯噪点图像,它都会创作出不同的艺术作品!

第二课 《ComfyUI基础知识》 By 郭佑萌 @ 🌈WaytoAGI 2024.8.15 .pdf

UNET是从噪音中生成图像的主要组件,在预测过程中,通过反复调用UNET,将UNET预测输出的noise slice从原有的噪声中去除,得到逐步去噪后的图像表示。Stable Diffusion Model的UNET包含约860M的参数,以float32的精度编码大概需要3.4G的存储空间。(source:zhuanlan.zhihu.com/p/582266032)核心的组件CLIP将用户输入的Prompt文本转化成text embeddingUNET UNET进行迭代降噪,在文本引导下进行多轮预测扩散模型在传统扩散模型中,反向扩散过程通过U-Net结构将全尺寸图像逐步传递,从而获得最终的去噪结果。然而,这种迭代性质在计算效率上带来了挑战,特别是在处理大尺寸图像和大量扩散步骤(T)时。在采样过程中,从高斯噪声中去噪图像可能需要很长时间。为了解决这一问题,一组研究人员提出了一种新的方法,称为稳定扩散(Stable Diffusion),最初称为潜在扩散模型(Latent Diffusion Models)CheckpointComfyUI存放路径:models/checkpoints/SD基础预训练模型SD1.5SDXLSD微调模型模型实例SD1.5【majicMIX realistic麦橘写实V7】by麦橘MERJIC----sd1.5微调SDXL【LEOSAM HelloWorld新世界】by LEOSAM是只兔狲----SDXL微调训练方法DreamBooth,by Google格式EMA-only & pruned VS FullEMA-only & pruned只画图Full画图和微调训练

其他人在问
stable diffusion快速
以下是关于如何快速上手 Stable Diffusion 的相关内容: 一分钟生成自己的二次元造型: 利用图生图功能,使用自己的照片生成二次元照片。 更换能生成二次元照片的大模型。 输入正面关键词,如“高质量,高清画质,大师杰作,极致的细节,8k,主体就是一个女孩”。 复制前面提供的负面关键词。 在空白处上传需要生成的照片。 调整重绘幅度,生成二次元照片时拉到 0.6 0.8 左右。 写好关键词,让你事半功倍: 先写质量词,然后描述照片主体及细节,如“一个女孩,非常精致的五官,极具细节的眼睛和嘴巴,长发,卷发,细腻的皮肤,大眼睛”,并翻译成英文。 描述人物服装,如“白色的毛衣、项链(white sweater,necklace,)”。 加上其他元素,如背景、天气、照片姿势、构图等,如“在街上,阳光,上半身照片(street,Sunshine,upper body photos,)”。 推荐一行一行分开类型写关键词,每行末尾加上英文逗号。 按照以上步骤和方法,您可以更快速地掌握 Stable Diffusion 的使用技巧。
2024-10-18
stable diffusion 绘本一致性
Stable Diffusion 绘本一致性相关知识如下: 工作原理: Stable Diffusion 生成随机噪声,并逐步更改噪声以努力获得与提示一致的图像。其基本结构包括 encoder + diffusion + decoder 的流程。Checkpoint 记录某个训练周期整个 diffusion 及可能的 encoder decoder 的参数,VAE 是 encoder decoder 的参数,在 SDXL 等大型模型中需配对以避免花屏现象。LoRA 模型训练时先冻结 SD 模型权重,然后在 UNet 结构中注入 LoRA 模块并与 CrossAttention 模块结合,只对部分参数微调。 相关论文: AnyDoor: MixofShow: LyCORIS: 影响生成结果的因素: 影响生成的图与他人不同的因素包括随机数种子(Seed)。随机数种子控制最底层形状,决定照片基础轮廓,如人物外形轮廓、姿势和站位等。当随机数为“1”时,SD 会随机生成种子。可在点击生成的照片下面的一大串英文中查看 seed 值。只有所有参数包括随机数种子都与他人相同时,才能生成相似的照片。
2024-09-30
如何 学习stable diffusion
学习 Stable Diffusion 可以参考以下内容: 学习 Stable Diffusion 的提示词: 1. 学习基本概念: 了解 Stable Diffusion 的工作原理和模型架构。 理解提示词如何影响生成结果。 掌握提示词的组成部分(主题词、修饰词、反面词等)。 2. 研究官方文档和教程: 通读 Stable Diffusion 官方文档,了解提示词相关指南。 研究来自开发团队和专家的教程和技巧分享。 3. 学习常见术语和范例: 熟悉 UI、艺术、摄影等相关领域的专业术语和概念。 研究优秀的图像标题和描述,作为提示词范例。 4. 掌握关键技巧: 学习如何组合多个词条来精确描述想要的效果。 掌握使用“()”、“”等符号来控制生成权重的技巧。 了解如何处理抽象概念、情感等无形事物的描述。 5. 实践和反馈: 使用不同的提示词尝试生成各种风格和主题的图像。 对比提示词和实际结果,分析原因,总结经验教训。 在社区内分享结果,请教高手,获取反馈和建议。 6. 创建提示词库: 根据主题、风格等维度,建立自己的高质量提示词库。 将成功案例和总结记录在案,方便后续参考和复用。 7. 持续跟进前沿: 关注 Stable Diffusion 的最新更新和社区分享。 及时掌握提示词的新技术、新范式、新趋势。 学习 Stable Diffusion Web UI: 1. 安装必要的软件环境: 安装 Git 用于克隆源代码。 安装 Python 3.10.6 版本,确保勾选“Add Python 3.10 to PATH”选项。 安装 Miniconda 或 Anaconda 创建 Python 虚拟环境。 2. 克隆 Stable Diffusion Web UI 源代码: 打开命令行工具,输入命令 git clone https://github.com/AUTOMATIC1111/stablediffusionwebui.git ,将源代码克隆到本地目录。 3. 运行安装脚本: 进入 stablediffusionwebui 目录。 运行 webuiuser.bat 或 webui.sh 脚本,它会自动安装依赖项并配置环境。等待安装完成,命令行会显示 Web UI 的访问地址。 4. 访问 Web UI 界面: 复制命令行显示的本地 Web 地址,在浏览器中打开,即可进入 Stable Diffusion Web UI 的图形化界面。 5. 学习 Web UI 的基本操作: 了解 Web UI 的各种设置选项,如模型、采样器、采样步数等。 尝试生成图像,观察不同参数对结果的影响。 学习使用提示词(prompt)来控制生成效果。 6. 探索 Web UI 的扩展功能: 了解 Web UI 支持的各种插件和扩展,如 Lora、Hypernetwork 等。 学习如何导入自定义模型、VAE、embedding 等文件。 掌握图像管理、任务管理等技巧,提高工作效率。 通过这些步骤,相信您可以快速上手 Stable Diffusion 及其 Web UI,开始探索 AI 绘画的乐趣。后续还可以深入学习 Stable Diffusion 的原理,以及在不同场景中的应用。请注意,以上内容由 AI 大模型生成,请仔细甄别。
2024-09-24
tensorflow和stable diffusion的结合
TensorFlow 和 Stable Diffusion 的结合涉及以下方面: Stable Diffusion 的基本原理: 生成随机噪声,并逐步更改噪声以努力获得与提示一致的图像。 基本结构是 encoder + diffusion + decoder 的流程。 Checkpoint 记录某个训练周期整个 diffusion 及可能的 encoder decoder 的参数。 VAE 是 encoder decoder 的参数,在大型模型中需配对以避免花屏现象。 Stable Diffusion 的技术原理: 核心技术来源于 Patrick Esser 和 Robin Romabach,基于潜扩散模型(Latent Diffusion Model)研究。 使用新颖的文本编码器(OpenCLIP)将文本输入转换为向量表示,捕捉语义信息并与图像空间对齐。 利用扩散模型将随机噪声图像逐渐变换为目标图像,从训练数据中学习概率分布并采样新数据。 在扩散过程中,利用文本向量和噪声图像作为条件输入,给出每步变换的概率分布,以根据文本指导收敛并保持图像质量。 Stable Diffusion 训练数据集制作: 设置 max_data_loader_n_workers 大于等于 2 加速数据处理。 数据标注流程包括使用 BLIP 进行自然语言自动标注和使用 Waifu Diffusion v1.4 模型自动标注 tag 标签。 调用 Waifu Diffusion v1.4 模型需安装特定版本(2.10.0)的 TensorFlow 库,可通过命令行检查与安装适配。
2024-09-23
Stable Diffusion官网
以下是 Stable Diffusion 的相关信息: Stable Diffusion 系列资源: SD 1.4 官方项目: SD 1.5 官方项目: SD 2.x 官方项目: diffusers 库中的 SD 代码 pipelines: SD 核心论文: SD Turbo 技术报告: 教程目录: 1. Stable Diffusion 系列资源 2. 零基础深入浅出理解 Stable Diffusion 核心基础原理 2.1 通俗讲解 Stable Diffusion 模型工作流程(包含详细图解) 2.2 从 0 到 1 读懂 Stable Diffusion 模型核心基础原理(包含详细图解) 2.3 零基础读懂 Stable Diffusion 训练全过程(包含详细图解) 2.4 其他主流生成式模型介绍 3. Stable Diffusion 核心网络结构解析(全网最详细) 3.1 SD 模型整体架构初识 3.2 VAE 模型 3.3 UNet 模型 3.4 CLIP Text Encoder 模型 3.5 SD 官方训练细节解析 4. 从 0 到 1 搭建使用 Stable Diffusion 模型进行 AI 绘画(全网最详细讲解) 4.1 零基础使用 ComfyUI 搭建 Stable Diffusion 推理流程 4.2 零基础使用 SD.Next 搭建 Stable Diffusion 推理流程 4.3 零基础使用 Stable Diffusion WebUI 搭建 Stable Diffusion 推理流程 目前 Stable Diffusion WebUI 可以说是开源社区使用 Stable Diffusion 模型进行 AI 绘画最热门的框架。是 AI 绘画领域最为流行的框架,其生态极其繁荣,非常多的上下游插件能够与 Stable Diffusion WebUI 一起完成诸如 AI 视频生成,AI 证件照生成等工作流,可玩性非常强。接下来,咱们就使用这个流行框架搭建 Stable Diffusion 推理流程。首先,我们需要下载安装 Stable Diffusion WebUI 框架,我们只需要在命令行输入如下代码即可。安装好后,我们可以看到本地的 stablediffusionwebui 文件夹。下面我们需要安装其依赖库,我们进入 Stable Diffusion WebUI 文件夹,并进行以下操作。和 SD.Next 的配置流程类似,我们还需要配置 Stable Diffusion WebUI 的 repositories 插件,我们需要运行下面的代码。如果发现 repositories 插件下载速度较慢,出现很多报错,don't worry,大家可以直接使用 Rocky 已经配置好的资源包,可以快速启动 Stable Diffusion WebUI 框架。Stable Diffusion WebUI 资源包可以关注公众号 WeThinkIn,后台回复“ WebUI 资源”获取。 4.4 零基础使用 diffusers 搭建 Stable Diffusion 推理流程 4.5 Stable Diffusion 生成示例 5. Stable Diffusion 经典应用场景 5.1 文本生成图像 5.2 图片生成图片 5.3 图像 inpainting 5.4 使用 controlnet 辅助生成图片 5.5 超分辨率重建 6. 从 0 到 1 上手使用 Stable Diffusion 训练自己的 AI 绘画模型(全网最详细讲解) 6.0 Stable Diffusion 训练资源分享 6.1 Stable Diffusion 模型训练初识 6.2 配置训练环境与训练文件 6.3 SD 训练数据集制作 6.4 Stable Diffusion 微调(finetune)训练
2024-09-18
stable diffusion可以用macbook 13来运行吗?配置够吗
Stable Diffusion(简称“SD”)的运行对电脑配置有一定要求。对于 Windows 系统: 显卡:必须是 NVIDIA(俗称 N 卡)。 专用 GPU 内存:4GB 勉强可以跑动 SD,出图时间较长;6GB 出一张图时间为 20 50 秒,大部分功能可用;8GB 5 20 秒出一张图,所有功能基本开放。 电脑运行内存:8GB 以上。 电脑系统:Win10 或者 Win11。 对于 Mac 系统,可以查看以下视频进行一键安装:https://www.bilibili.com/video/BV1Kh4y1W7Vg/?spm_id_from=333.788&vd_source=6f836e2ab17b1bdb4fc5ea98f38df761 但具体 MacBook 13 是否能运行及配置是否足够,还需根据上述标准进行对照检查。
2024-09-16
找了好久也没找到,记得老师是建筑设计师,设计了在深圳大楼,做了有关于 stablediffution 的分享,你能帮我找到是哪个视频吗
以下是为您找到的相关视频信息: 1. 爆肝博主 ZHO 去年 10 月份发布的一系列围绕 Stable Diffusion 的系统整理视频,深入浅出地介绍了整个生态的发展和梳理,包括论文原理和应用技术等多方面内容,分了四集,一共 4 小时,超 5 万字。系列导览: 认识 Stable Diffusion、一周年回顾和 SD 生态圈三方面展开,形成基础认识。 从 AIGC 浪潮聚焦到扩散的系统梳理,从理论的角度理解扩散模型如何实现 0 到 1 的跨越。 将围绕 SD 展开从模型到生态的全面盘点,一起探究 SD 的创新与未来。 对各类 GUI 的盘点、聚焦 ComfyUI,从设计到实际操作做全面梳理。系列视频:b23.tv/NVRRqqQ 2. EP.3 IP Adapter 对话阿文,阿文老师介绍自己是发布会 PPT 设计师,2022 年 4 月开始关注 diffusion 领域,早期跟了很多工具的发布以及测评,比如 DallE 和 Stable Diffusion,一直尝试把 AI 工具用到平面工作流当中。
2024-10-09
stable diff
以下是关于 Stable Diffusion 的相关信息: 中文大模型基准测评 2023 年度报告中未直接提及 Stable Diffusion 的相关内容。 有关于 Stable Diffusion 安装过程中常见报错解决方法的教程: 目录不正确报错:: 显存不足报错:File “D:\\openai.wiki\\stablediffusionwebui\\venv\\lib\\sitepackages\\torch\\nn\\modules\\module.py”,line 664,in _apply 、param_applied = fnIf reserved memory is >> allocated memory try setting max_split_size_mb to avoid fragmentation.See documentation for Memory Management and PYTORCH_CUDA_ALLOC_CONF 、Stable diffusion model failed to load,exiting 、请按任意键继续。 。解决方法包括换个好一些的显卡(至少英伟达 2060 以上),或者开启低显存模式(在 stablediffusionwebui 文件夹下找到 webuiuser.bat,用文本或代码编辑器打开该文件夹)。
2024-09-30