直达「 通往AGI之路 」飞书知识库 →
首页/问答列表/问答详情

Stable Diffusion官网

回答

以下是 Stable Diffusion 的相关信息:

  • Stable Diffusion 系列资源:
  • 教程目录:
      1. Stable Diffusion 系列资源
      1. 零基础深入浅出理解 Stable Diffusion 核心基础原理
      • 2.1 通俗讲解 Stable Diffusion 模型工作流程(包含详细图解)
      • 2.2 从 0 到 1 读懂 Stable Diffusion 模型核心基础原理(包含详细图解)
      • 2.3 零基础读懂 Stable Diffusion 训练全过程(包含详细图解)
      • 2.4 其他主流生成式模型介绍
      1. Stable Diffusion 核心网络结构解析(全网最详细)
      • 3.1 SD 模型整体架构初识
      • 3.2 VAE 模型
      • 3.3 U-Net 模型
      • 3.4 CLIP Text Encoder 模型
      • 3.5 SD 官方训练细节解析
      1. 从 0 到 1 搭建使用 Stable Diffusion 模型进行 AI 绘画(全网最详细讲解)
      • 4.1 零基础使用 ComfyUI 搭建 Stable Diffusion 推理流程
      • 4.2 零基础使用 SD.Next 搭建 Stable Diffusion 推理流程
      • 4.3 零基础使用 Stable Diffusion WebUI 搭建 Stable Diffusion 推理流程
        • 目前 Stable Diffusion WebUI 可以说是开源社区使用 Stable Diffusion 模型进行 AI 绘画最热门的框架。Stable Diffusion WebUI是 AI 绘画领域最为流行的框架,其生态极其繁荣,非常多的上下游插件能够与 Stable Diffusion WebUI 一起完成诸如 AI 视频生成,AI 证件照生成等工作流,可玩性非常强。接下来,咱们就使用这个流行框架搭建 Stable Diffusion 推理流程。首先,我们需要下载安装 Stable Diffusion WebUI 框架,我们只需要在命令行输入如下代码即可。安装好后,我们可以看到本地的 stable-diffusion-webui 文件夹。下面我们需要安装其依赖库,我们进入 Stable Diffusion WebUI 文件夹,并进行以下操作。和 SD.Next 的配置流程类似,我们还需要配置 Stable Diffusion WebUI 的 repositories 插件,我们需要运行下面的代码。如果发现 repositories 插件下载速度较慢,出现很多报错,don't worry,大家可以直接使用 Rocky 已经配置好的资源包,可以快速启动 Stable Diffusion WebUI 框架。Stable Diffusion WebUI 资源包可以关注公众号 WeThinkIn,后台回复“ WebUI 资源”获取。
    • 4.4 零基础使用 diffusers 搭建 Stable Diffusion 推理流程
    • 4.5 Stable Diffusion 生成示例
      1. Stable Diffusion 经典应用场景
      • 5.1 文本生成图像
      • 5.2 图片生成图片
      • 5.3 图像 inpainting
      • 5.4 使用 controlnet 辅助生成图片
      • 5.5 超分辨率重建
      1. 从 0 到 1 上手使用 Stable Diffusion 训练自己的 AI 绘画模型(全网最详细讲解)
      • 6.0 Stable Diffusion 训练资源分享
      • 6.1 Stable Diffusion 模型训练初识
      • 6.2 配置训练环境与训练文件
      • 6.3 SD 训练数据集制作
      • 6.4 Stable Diffusion 微调(finetune)训练
内容由 AI 大模型生成,请仔细甄别(powered by aily)

参考资料

教程:深入浅出完整解析Stable Diffusion(SD)核心基础知识 - 知乎

SD 1.4官方项目:[CompVis/stable-diffusion](https://link.zhihu.com/?target=https%3A//github.com/CompVis/stable-diffusion)SD 1.5官方项目:[runwayml/stable-diffusion](https://link.zhihu.com/?target=https%3A//github.com/runwayml/stable-diffusion)SD 2.x官方项目:[Stability-AI/stablediffusion](https://link.zhihu.com/?target=https%3A//github.com/Stability-AI/stablediffusion)diffusers库中的SD代码pipelines:[diffusers/pipelines/stable_diffusion](https://link.zhihu.com/?target=https%3A//github.com/huggingface/diffusers/tree/main/src/diffusers/pipelines/stable_diffusion)SD核心论文:[High-Resolution Image Synthesis with Latent Diffusion Models](https://link.zhihu.com/?target=https%3A//arxiv.org/abs/2112.10752)SD Turbo技术报告:[adversarial_diffusion_distillation](https://link.zhihu.com/?target=https%3A//static1.squarespace.com/static/6213c340453c3f502425776e/t/65663480a92fba51d0e1023f/1701197769659/adversarial_diffusion_distillation.pdf)

教程:深入浅出完整解析Stable Diffusion(SD)核心基础知识 - 知乎

1.Stable Diffusion系列资源2.零基础深入浅出理解Stable Diffusion核心基础原理2.1通俗讲解Stable Diffusion模型工作流程(包含详细图解)2.2从0到1读懂Stable Diffusion模型核心基础原理(包含详细图解)2.3零基础读懂Stable Diffusion训练全过程(包含详细图解)2.4其他主流生成式模型介绍3.Stable Diffusion核心网络结构解析(全网最详细)3.1 SD模型整体架构初识3.2 VAE模型3.3 U-Net模型3.4 CLIP Text Encoder模型3.5 SD官方训练细节解析4.从0到1搭建使用Stable Diffusion模型进行AI绘画(全网最详细讲解)4.1零基础使用ComfyUI搭建Stable Diffusion推理流程4.2零基础使用SD.Next搭建Stable Diffusion推理流程4.3零基础使用Stable Diffusion WebUI搭建Stable Diffusion推理流程4.4零基础使用diffusers搭建Stable Diffusion推理流程4.5 Stable Diffusion生成示例5.Stable Diffusion经典应用场景5.1文本生成图像5.2图片生成图片5.3图像inpainting5.4使用controlnet辅助生成图片5.5超分辨率重建6.从0到1上手使用Stable Diffusion训练自己的AI绘画模型(全网最详细讲解)6.0 Stable Diffusion训练资源分享6.1 Stable Diffusion模型训练初识6.2配置训练环境与训练文件6.3 SD训练数据集制作6.4 Stable Diffusion微调(finetune)训练

教程:深入浅出完整解析Stable Diffusion(SD)核心基础知识 - 知乎

目前Stable Diffusion WebUI可以说是开源社区使用Stable Diffusion模型进行AI绘画最热门的框架。[Stable Diffusion WebUI](https://link.zhihu.com/?target=https%3A//github.com/AUTOMATIC1111/stable-diffusion-webui)是AI绘画领域最为流行的框架,其生态极其繁荣,非常多的上下游插件能够与Stable Diffusion WebUI一起完成诸如AI视频生成,AI证件照生成等工作流,可玩性非常强。接下来,咱们就使用这个流行框架搭建Stable Diffusion推理流程吧。首先,我们需要下载安装Stable Diffusion WebUI框架,我们只需要在命令行输入如下代码即可:安装好后,我们可以看到本地的stable-diffusion-webui文件夹。下面我们需要安装其依赖库,我们进入Stable Diffusion WebUI文件夹,并进行以下操作:和SD.Next的配置流程类似,我们还需要配置Stable Diffusion WebUI的repositories插件,我们需要运行下面的代码:如果发现repositories插件下载速度较慢,出现很多报错,don't worry,大家可以直接使用Rocky已经配置好的资源包,可以快速启动Stable Diffusion WebUI框架。Stable Diffusion WebUI资源包可以关注公众号WeThinkIn,后台回复“ WebUI资源”获取。

其他人在问
stable diffusion底层技术
Stable Diffusion 的底层技术主要来源于 AI 视频剪辑技术创业公司 Runway 的 Patrick Esser 以及慕尼黑大学机器视觉学习组的 Robin Romabach 之前在计算机视觉大会 CVPR22 上合作发表的潜扩散模型(Latent Diffusion Model)研究。 Stable Diffusion 是一种基于潜在扩散模型的文本到图像生成模型,其原理包括以下几个步骤: 1. 使用新颖的文本编码器(OpenCLIP),由 LAION 开发并得到 Stability AI 的支持,将文本输入转换为向量表示,以捕捉文本语义信息并与图像空间对齐。 2. 采用扩散模型,将随机噪声图像逐渐变换为目标图像。扩散模型是一种生成模型,能从训练数据中学习概率分布并采样新数据。 3. 在扩散过程中,利用文本向量和噪声图像作为条件输入,给出每一步变换的概率分布,根据文本指导噪声图像向目标图像收敛,并保持图像的清晰度和连贯性。 4. 使用超分辨率放大器(Upscaler Diffusion Model),将生成的低分辨率图像放大到更高分辨率,从低分辨率图像中恢复细节信息并增强图像质量。 此外,ComfyUI 的底层依赖 Stable Diffusion,去噪过程由 UNet 网络完成。UNet 是一种编码器解码器结构,能处理多尺度特征表示。在 ComfyUI 中,去噪的每个步骤通过模型推理模块实现,调用训练好的 UNet 模型逐步将噪声图像还原成有意义的图像。交叉注意力机制在 Stable Diffusion 中很重要,允许模型在生成过程中融入文本提示、图像、语义信息等条件,在 ComfyUI 中通过“文本提示”和“条件输入”节点实现。跳跃连接是 UNet 的核心部分,能在不同尺度之间共享特征,在 ComfyUI 的节点网络中表现为中间过程数据的流转。切换器代表在去噪过程中的不同阶段对特征流的控制,在 ComfyUI 中可通过修改模型参数节点或自定义网络结构节点对不同阶段的噪声去除策略进行微调。 Stable Diffusion 还具有以下优点: 1. 可以处理任意领域和主题的文本输入,并生成与之相符合的多样化和富有创意的图像。 2. 可以生成高达 2048x2048 或更高分辨率的图像,且保持良好的视觉效果和真实感。 它还可以进行深度引导和结构保留的图像转换和合成,例如根据输入图片推断出深度信息,并利用深度信息和文本条件生成新图片。
2025-04-15
stable video diffusion开发
以下是关于 Stable Video Diffusion 开发的相关信息: SVD 介绍: 简介:Stable Video Diffusion 是 Stability AI 于 2023 年 11 月 21 日发布的视频生成式大模型,用于高分辨率、先进的文本到视频和图像到视频生成的潜在视频扩散模型。它支持多种功能,用户可调整多种参数,但对硬件要求较高,支持的图片尺寸较小,应用场景受限。 模型版本:开源了两种图生视频的模型,一种能生成 14 帧的 SVD,另一种是可以生成 25 帧的 SVDXL,发布时通过外部评估超越了人类偏好研究中领先的封闭模型。 主要贡献:提出系统的数据管理工作流程,将大量未经管理的视频集合转变为高质量数据集;训练出性能优于现有模型的文本到视频和图像到视频模型;通过特定领域实验探索模型中运动和 3D 理解的强先验,预训练的视频扩散模型可转变为强大的多视图生成器,有助于克服 3D 领域数据稀缺问题。 部署实战避坑指南: 直接使用百度网盘里准备好的资源,可规避 90%的坑。 若一直报显存溢出问题,可调低帧数或增加 novram 启动参数。 云部署实战中,基础依赖模型权重有两个 models–laion–CLIPViTH14laion2Bs32Bb79K 和 ViTL14.pt,需放到指定路径下。 总结: Sora 发布后,此前的视频生成模型相形见绌,但 Stable Video Diffusion 作为开源项目可在自己机器上自由创作无需充值。SVD 生成的视频画质清晰,帧与帧过渡自然,能解决背景闪烁和人物一致性问题,虽目前最多生成 4 秒视频,与 Sora 的 60 秒差距大,但在不断迭代。我们会持续关注其技术及前沿视频生成技术,尝试不同部署微调方式,介绍更多技术模型,更多精彩内容后续放出。 同时,您还可以加入「AIGCmagic 社区」群聊交流讨论,涉及 AI 视频、AI 绘画、Sora 技术拆解、数字人、多模态、大模型、传统深度学习、自动驾驶等多个方向,可私信或添加微信号:【m_aigc2022】,备注不同方向邀请入群。
2025-04-15
stable diffusion是runway和goole联合开的吗
Stable Diffusion(简称 SD)不是由 Runway 和 Google 联合开发的,而是由初创公司 StabilityAI、CompVis 与 Runway 合作开发的。 Stable Diffusion 是 2022 年发布的深度学习文本到图像生成模型,其核心技术来源于 AI 视频剪辑技术创业公司 Runway 的 Patrick Esser 以及慕尼黑大学机器视觉学习组的 Robin Romabach。该项目的技术基础主要来自于这两位开发者之前在计算机视觉大会 CVPR22 上合作发表的潜扩散模型(Latent Diffusion Model)研究。 Stable diffusion 是一种基于潜在扩散模型(Latent Diffusion Models)的文本到图像生成模型,能够根据任意文本输入生成高质量、高分辨率、高逼真的图像。其原理包括使用新颖的文本编码器将文本输入转换为向量表示,利用扩散模型将随机噪声图像逐渐变换为目标图像,在扩散过程中根据文本向量和噪声图像作为条件输入给出变换的概率分布,最后使用超分辨率放大器将生成的低分辨率图像放大到更高的分辨率。 围绕 Stable Diffusion 等基础模型的兴奋和关注正在产生惊人的估值,但新研究的不断涌现确保新模型将随着新技术的完善而更替。目前,这些模型在法律方面也面临挑战,例如其训练所使用的大量内容数据集通常是通过爬取互联网本身获得的,这可能会引发法律问题。
2025-04-15
stable diffusion开发公司
Stable Diffusion 是由初创公司 StabilityAI、CompVis 与 Runway 合作开发的。其核心技术来源于 AI 视频剪辑技术创业公司 Runway 的 Patrick Esser 以及慕尼黑大学机器视觉学习组的 Robin Romabach。该项目的技术基础主要来自于他们之前在计算机视觉大会 CVPR22 上合作发表的潜扩散模型(Latent Diffusion Model)研究。 Stable Diffusion 是一种基于潜在扩散模型(Latent Diffusion Models)的文本到图像生成模型,能够根据任意文本输入生成高质量、高分辨率、高逼真的图像。其原理包括使用新颖的文本编码器(OpenCLIP)将文本输入转换为向量表示,利用扩散模型将随机噪声图像逐渐变换为目标图像,在扩散过程中以文本向量和噪声图像作为条件输入给出变换的概率分布,最后使用超分辨率放大器将生成的低分辨率图像放大到更高分辨率。 Stable Diffusion 总共有 1B 左右的参数量,可以用于文生图、图生图、图像 inpainting、ControlNet 控制生成、图像超分等丰富的任务。在文生图任务中,将一段文本输入到模型中,经过一定迭代次数输出符合文本描述的图片;图生图任务则在输入文本基础上再输入一张图片,模型根据文本提示对输入图片进行重绘。输入的文本信息通过 CLIP Text Encoder 模型编码生成与文本信息对应的 Text Embeddings 特征矩阵,用于控制图像生成。源代码库为 github.com/StabilityAI/stablediffusion ,当前版本为 2.1 稳定版(2022.12.7),其代码模型权重已公开发布,可以在大多数配备有适度 GPU 的电脑硬件上运行。
2025-04-15
stable diffusion开发公司
Stable Diffusion 是由初创公司 Stability AI、CompVis 与 Runway 合作开发的。其核心技术来源于 AI 视频剪辑技术创业公司 Runway 的 Patrick Esser 以及慕尼黑大学机器视觉学习组的 Robin Romabach。该项目的技术基础主要来自于他们之前在计算机视觉大会 CVPR22 上合作发表的潜扩散模型(Latent Diffusion Model)研究。 Stable Diffusion 是一种基于潜在扩散模型(Latent Diffusion Models)的文本到图像生成模型,能够根据任意文本输入生成高质量、高分辨率、高逼真的图像。其原理包括使用新颖的文本编码器(OpenCLIP)将文本输入转换为向量表示,利用扩散模型将随机噪声图像逐渐变换为目标图像,在扩散过程中以文本向量和噪声图像作为条件输入给出变换概率分布,最后使用超分辨率放大器将生成的低分辨率图像放大到更高分辨率。 Stable Diffusion 总共有 1B 左右的参数量,可以用于文生图、图生图、图像 inpainting、ControlNet 控制生成、图像超分等丰富的任务。其代码模型权重已公开发布,可以在大多数配备有适度 GPU 的电脑硬件上运行,当前版本为 2.1 稳定版(2022.12.7),源代码库为 github.com/StabilityAI/stablediffusion 。
2025-04-15
有stable diffusion的学习教程吗
以下为您提供一些 Stable Diffusion 的学习教程: 1. 超详细的 Stable Diffusion 教程: 介绍了为什么要学习 Stable Diffusion 及其强大之处。 指出 Stable Diffusion 是能根据输入文字生成图片的软件。 强调学习目的是快速入门,而非深入研究原理,通过案例和实际操作帮助上手。 2. 深入浅出完整解析 Stable Diffusion(SD)核心基础知识 知乎: 包含 Stable Diffusion 系列资源。 零基础深入浅出理解 Stable Diffusion 核心基础原理,如模型工作流程、核心基础原理、训练全过程等。 解析 Stable Diffusion 核心网络结构,包括 SD 模型整体架构、VAE 模型、UNet 模型等。 介绍从 0 到 1 搭建使用 Stable Diffusion 模型进行 AI 绘画的流程。 列举 Stable Diffusion 经典应用场景。 讲解从 0 到 1 上手使用 Stable Diffusion 训练自己的 AI 绘画模型。 3. 视频教程: 「AI 绘画」软件比较与 stable diffusion 的优势: 「AI 绘画」零基础学会 Stable Diffusion: 「AI 绘画」革命性技术突破: 「AI 绘画」从零开始的 AI 绘画入门教程——魔法导论: 「入门 1」5 分钟搞定 Stable Diffusion 环境配置,消灭奇怪的报错: 「入门 2」stable diffusion 安装教程,有手就会不折腾: 「入门 3」你的电脑是否跑得动 stable diffusion?: 「入门 4」stable diffusion 插件如何下载和安装?:
2025-03-28
为什么我搜不到deepseek的官网网页版入口
DeepSeek 是一家具有独特特点的中国公司开发的人工智能模型。它有点像 2022 年之前的 OpenAI 和 DeepMind,更倾向于学术研究,目前没有太多商业化的运营手段。 您搜不到 DeepSeek 官网网页版入口可能有多种原因。您可以按照以下步骤尝试访问: 1. 搜索 www.deepseek.com,点击“开始对话”。 DeepSeek 有一些独特的优势,比如: 1. 具有强大的推理能力,比肩 O1。 2. 参数少,训练开销与使用费用小。 3. 开源,任何人均可自行下载与部署,并提供了详细的训练步骤与窍门,甚至有可以运行在手机上的 mini 模型。 4. 官方目前提供的服务完全免费,任何人随时随地可用。 5. 是暂时唯一支持联网搜索的推理模型。 如果这都不值得欢呼,还有什么值得欢呼?您可以按照以下建议使用 DeepSeek: 1. 请直接访问网页链接马上用起来,也有移动 APP。 2. 使劲用,疯狂用,尝试用它基本取代传统搜索。 3. 去看看别人是怎么用的,去试试其他大模型,了解 AI 擅长什么,不擅长什么,如何调教,然后继续解锁与迭代属于自己的用法与更多工具。 希望 DeepSeek R1 会让您对当前最先进的 AI 祛魅,让 AI 逐渐变成您生活中的水和电。
2025-03-26
为什么我搜不到deepseek网页版官网
DeepSeek 网页版官网为 www.deepseek.com 。使用 DeepSeek 联网版的核心路径如下: 1. 拥有扣子专业版账号,如果是普通账号,请自行升级或注册专业号后使用。 2. 开通 DeepSeek R1 大模型,访问地址:https://console.volcengine.com/cozepro/overview?scenario=coze 。打开火山方舟,找到开通管理,找到 DeepSeek R1 模型,点击开通服务,添加在线推理模型,添加后在扣子开发平台才能使用。 3. 创建智能体,点击创建,先完成一个智能体的创建。 如果官网的搜索不能用,一直崩溃,可以用火山的满血版,在相关视频的最后 10 分钟左右有手把手教程。此外,还有以下关于 DeepSeek 的信息: 1. 关于 DeepSeek 的效果对比,用 Coze 做了个小测试,大家可以对比看看。 2. 如何使用 DeepSeek:Step1:搜索 www.deepseek.com,点击“开始对话”;Step2:将装有提示词的代码发给 Deepseek;Step3:认真阅读开场白之后,正式开始对话。 3. DeepSeek 的设计思路:将 Agent 封装成 Prompt,将 Prompt 储存在文件,保证最低成本的人人可用的同时,减轻自己的调试负担;通过提示词文件,让 DeepSeek 实现同时使用联网功能和深度思考功能;在模型默认能力的基础上优化输出质量,并通过思考减轻 AI 味,增加可读性;照猫画虎参考大模型的 temperature 设计了阈值系统,但是可能形式大于实质,之后根据反馈可能会修改;用 XML 来进行更为规范的设定,而不是用 Lisp(对作者来说有难度)和 Markdown(运行下来似乎不是很稳定)。 4. DeepSeek 论文解读,有直播视频回放和相关论文下载,如 。 5. 关于万能提示词,这是用 DS 小技巧,用这个提示词来 DeepSeek R1,基本可以算万能了。您是一名顶尖的提示词优化专家,请按以下步骤优化下方提示:分析原提示的模糊性、冗余项和潜在歧义;基于,重构提示结构(可参考 CRISPE/BROKE 框架);生成 3 个优化版本,并解释每版的改进逻辑。 特别鸣谢李继刚的【思考的七把武器】在前期为作者提供了很多思考方向,Thinking Claude 也是作者设计 HiDeepSeek 的灵感来源,Claude 3.5 Sonnet 是最得力的助手。
2025-03-26
deepseek官网地址
DeepSeek 的相关网址如下: 官网使用地址:https://chat.deepseek.com/(有手机客户端:扫描下面二维码) 模型下载地址:https://github.com/deepseekai/DeepSeekLLM?tab=readmeovfile API 文档地址: 集合·DeepSeek 提示词方法论:https://waytoagi.feishu.cn/wiki/ISVZwe05Tio9hEkFSF5cIjZ7nVf 魔改版本:https://huggingface.co/ValueFX9507/TifaDeepsex14bCoTGGUFQ4 、https://huggingface.co/mradermacher/DeepSeekR1DistillQwen7BabliteratedGGUF 早期 DeepSeek 官网:https://www.deepseek.com/ ,进入右上角的 API 开放平台。
2025-03-24
AI生成小说的官网有哪些
以下是一些 AI 生成小说的官网: ainovel.com promptbase.com 此外,novelai.net 也是一个与小说生成相关的网站。
2025-03-22
告诉我chatGPT的官网
ChatGPT 的官网是:https://chat.openai.com/ 。ChatGPT 是一种基于 GPT(生成式预训练变换器)架构的人工智能模型,由 OpenAI 开发。目前 ChatGPT 官网有两个版本,一个是 GPT3.5,一个是 GPT4。GPT3.5 是免费版本,只要拥有 GPT 账号就能使用,而 GPT4 若要使用更多功能则需要升级到 PLUS 套餐,收费标准是 20 美金一个月。
2025-02-28
我想用chatGPT帮我生成图片,告诉我他的官网
ChatGPT 本身不能直接生成图片。但 OpenAI 旗下的 DALL·E 3 可以生成图片。您可以通过以下方式获取相关信息: 打开 ChatGPT 就能使用 DALL·E 3 生成图片,OpenAI 还罕见地发布了一些技术细节。论文地址:https://cdn.openai.com/papers/dalle3.pdf 。 关于 DALL·E 3 的更多介绍:DALL·E 3 是 OpenAI 在 2023 年 9 月份发布的文生图模型,与 DALL·E 2 相比,它可以利用 ChatGPT 生成提示,生成的图质量也更高。例如对于同样的 prompt“一幅描绘篮球运动员扣篮的油画,并伴以爆炸的星云”,DALL·E 3 在细节、清晰度、明亮度等方面优于 DALL·E 2 。
2025-02-28