直达「 通往AGI之路 」飞书知识库 →
首页/问答列表/问答详情

本站的stable diffusion在哪个分类

回答

Stable Diffusion(简称 SD)属于图片美术类的 AIGC 项目。它是由初创公司 StabilityAI、CompVis 与 Runway 合作开发,2022 年发布的深度学习文本到图像生成模型。其代码模型权重已公开发布,可在多数配备适度 GPU 的电脑硬件上运行,当前版本为 2.1 稳定版(2022.12.7)。源代码库为 github.com/Stability-AI/stablediffusion 。

在分类上,它可以归为 AIGC 常见名词解释中的图片美术类。同时,关于 Stable Diffusion 有很多详细的教程,比如在知乎上有深入浅出完整解析其核心基础知识的内容,包括系列资源、核心基础原理、核心网络结构解析、搭建使用模型进行 AI 绘画、经典应用场景、训练自己的 AI 绘画模型等方面。

内容由 AI 大模型生成,请仔细甄别(powered by aily)

参考资料

AIGC常见名词解释(字典篇)

AIGC:AI generated content,又称为生成式AI,意为人工智能生成内容。例如AI文本续写,文字转图像的AI图、AI主持人等,都属于AIGC的应用。类似的名词缩写还有UGC(普通用户生产),PGC(专业用户生产)等。能进行AIGC的产品项目也很多,能进行AIGC的媒介也很多包括且不限于语言文字类:OpenAI的GPT,Google的Bard,百度的文心一言,还有一种国内大佬下场要做的的LLM都是语言类的。语音声音类:Google的WaveNet,微软的Deep Nerual Network,百度的DeepSpeech等,还有合成AI孙燕姿大火的开源模型Sovits。图片美术类:早期有GEN等图片识别/生成技术,去年大热的扩散模型又带火了我们比较熟悉的、生成质量无敌的Midjourney,先驱者谷歌的Disco Diffusion,一直在排队测试的OpenAI的Dalle·2,以及stability ai和runaway共同推出的Stable Diffusion...[heading1]SD是什么?[content]SD是Stable Diffusion的简称。是它是由初创公司StabilityAI、CompVis与Runway合作开发,2022年发布的深度学习文本到图像生成模型。它主要用于根据文本的描述产生详细图像。Stable Diffusion是一种扩散模型(diffusion model)的变体,叫做“潜在扩散模型”(latent diffusion model; LDM)。SD的代码模型权重已公开发布,可以在大多数配备有适度GPU的电脑硬件上运行。当前版本为2.1稳定版(2022.12.7)。<br>|源代码库:github.com/Stability-AI/stablediffusion|我们可以通过一系列的工具搭建准备,使用SD进行想要的图片aigc(心想事成的魔法施与)。

教程:深入浅出完整解析Stable Diffusion(SD)核心基础知识 - 知乎

[title]教程:深入浅出完整解析Stable Diffusion(SD)核心基础知识-知乎[heading2]目录1.Stable Diffusion系列资源2.零基础深入浅出理解Stable Diffusion核心基础原理2.1通俗讲解Stable Diffusion模型工作流程(包含详细图解)2.2从0到1读懂Stable Diffusion模型核心基础原理(包含详细图解)2.3零基础读懂Stable Diffusion训练全过程(包含详细图解)2.4其他主流生成式模型介绍3.Stable Diffusion核心网络结构解析(全网最详细)3.1 SD模型整体架构初识3.2 VAE模型3.3 U-Net模型3.4 CLIP Text Encoder模型3.5 SD官方训练细节解析4.从0到1搭建使用Stable Diffusion模型进行AI绘画(全网最详细讲解)4.1零基础使用ComfyUI搭建Stable Diffusion推理流程4.2零基础使用SD.Next搭建Stable Diffusion推理流程4.3零基础使用Stable Diffusion WebUI搭建Stable Diffusion推理流程4.4零基础使用diffusers搭建Stable Diffusion推理流程4.5 Stable Diffusion生成示例5.Stable Diffusion经典应用场景5.1文本生成图像5.2图片生成图片5.3图像inpainting5.4使用controlnet辅助生成图片5.5超分辨率重建6.从0到1上手使用Stable Diffusion训练自己的AI绘画模型(全网最详细讲解)6.0 Stable Diffusion训练资源分享6.1 Stable Diffusion模型训练初识6.2配置训练环境与训练文件

教程:深入浅出完整解析Stable Diffusion(SD)核心基础知识 - 知乎

[title]教程:深入浅出完整解析Stable Diffusion(SD)核心基础知识-知乎[heading2]正文码字不易,希望大家能多多点赞!Rocky持续在撰写Stable Diffusion XL全方位解析文章,希望大家能多多点赞,让Rocky有更多坚持的动力:[深入浅出完整解析Stable Diffusion XL(SDXL)核心基础知识967赞同· 148评论文章](https://zhuanlan.zhihu.com/p/643420260)2023.08.26最新消息,本文已经撰写Stable Diffusion 1.x-2.x系列和对应LoRA的训练全流程与详细解读内容,同时发布对应的保姆级训练资源,大家可以愉快地训练属于自己的SD和LoRA模型了!2023.07.26最新消息,由于Stable Diffusion模型的网络结构比较复杂,不好可视化,导致大家看的云里雾里。因此本文中已经发布Stable Diffusion中VAE,U-Net和CLIP三大模型的可视化网络结构图,大家可以下载用于学习!大家好,我是Rocky。2022年,Stable Diffusion模型横空出世,成为AI行业从传统深度学习时代走向AIGC时代的标志性模型之一,并为工业界、投资界、学术界和竞赛界都注入了新的AI想象空间,让AI再次“性感”。Stable Diffusion(简称SD)是AI绘画领域的一个核心模型,能够进行文生图(txt2img)和图生图(img2img)等图像生成任务。与Midjourney不同的是,Stable Diffusion是一个完全开源的项目(模型、代码、训练数据、论文、生态等全部开源),这使得其能快速构建强大繁荣的上下游生态(AI绘画社区、基于SD的自训练AI绘画模型、丰富的辅助AI绘画工具与插件等),并且吸引了越来越多的AI绘画爱好者加入其中,与AI行业从业者一起推动AIGC领域的发展与普惠。

其他人在问
Stable diffusion提示词生成器
以下是关于 Stable diffusion 提示词生成器的相关内容: 1. 描述逻辑:通常包括人物及主体特征(如服饰、发型发色、五官、表情、动作),场景特征(如室内室外、大场景、小细节),环境光照(如白天黑夜、特定时段、光、天空),画幅视角(如距离、人物比例、观察视角、镜头类型),画质(如高画质、高分辨率),画风(如插画、二次元、写实)。通过这些详细的提示词,能更精确地控制绘图。 2. 辅助网站: http://www.atoolbox.net/ ,可通过选项卡方式快速填写关键词信息。 https://ai.dawnmark.cn/ ,每种参数有缩略图参考,方便直观选择提示词。 还可以去 C 站(https://civitai.com/)抄作业,复制每一张图的详细参数粘贴到正向提示词栏,点击生成按钮下的第一个按键,Stable Diffusion 会自动匹配所有参数,但要注意图像作者使用的大模型和 LORA,否则即使参数相同,生成的图也可能不同。也可以选取其中较好的描述词,如人物描写、背景描述、小元素或画面质感等。 3. 充当有艺术气息的 Stable Diffusion prompt 助理:根据给定的主题想象完整画面,转化为详细、高质量的 prompt,包含“Prompt:”和“Negative Prompt:”两部分,用英文半角“,”分隔,negative prompt 描述不想在生成图像中出现的内容。 4. 插件“Easy Prompt Selector”:安装方式是在扩展面板中点击“从网址安装”,输入 https://github.com/bluepen5805/sdwebeasypromptselector 直接安装,将汉化包复制进“……\\sdwebuiakiv4\\extensions”路径文件夹下覆盖,重启 webUI 后,在生成按钮下会多出“提示词”按钮,点击会出现下拉列表,包含很多分类,如点击“人物”会出现常用标签,选择后自动加入正向提示词。
2024-10-31
Stable Diffusion
稳定扩散(Stable Diffusion)的运作原理如下: 消除图像中的噪点:如果拍照太暗会产生噪点,而 Stable Diffusion 用于生成艺术作品时会在幕后“清理”图像。它比手机图像编辑器中的噪点消除滑块复杂得多,它了解世界的样子和书面语言,并以此指导噪点消除过程。例如,给它一幅以 H.R. Giger 风格描绘的外星人弹吉他的画,它能像熟练的平面艺术家一样进行清理。 推理步骤:稳定扩散是逐步去除噪点的,有“推理步骤”滑块。例如一个运行 25 步的例子,外星吉他手的例子更能清晰展示其效果。 开始方式:为了生成艺术,给 Stable Diffusion 提供的初始图像实际上只是纯噪点,并告知它这是一幅特定风格的画。在最简单层面,它作为计算机程序会执行任务。更深层次,它基于统计数据,估计所有选项的概率,即使概率都极低,也会选择概率最高的路径,例如寻找噪点中最可能像吉他边缘的部分来填充物体。每次给它不同的纯噪点图像,都会创作出不同的艺术作品。 此外,UNET 是从噪音中生成图像的主要组件,在预测过程中,通过反复调用 UNET,将其预测输出的 noise slice 从原有的噪声中去除,得到逐步去噪后的图像表示。Stable Diffusion Model 的 UNET 包含约 860M 的参数,以 float32 的精度编码大概需要 3.4G 的存储空间。 ComfyUI 中的相关内容: CLIP 将用户输入的 Prompt 文本转化成 text embedding,UNET 进行迭代降噪,在文本引导下进行多轮预测。 稳定扩散最初称为潜在扩散模型,解决了传统扩散模型在处理大尺寸图像和大量扩散步骤时计算效率的问题。 Checkpoint 的 ComfyUI 存放路径:models/checkpoints/,包括 SD 基础预训练模型(如 SD1.5、SDXL)、SD 微调模型等。训练方法有 DreamBooth 等,格式有 EMAonly & pruned(只画图)和 Full(画图和微调训练)。
2024-10-29
ai视频有没有免费的模型用,就像chatgpt的免费版,stable diffusion也不收钱
在 AI 视频领域,Stability.AI 仍将免费提供其主要检查点作为核心业务宗旨(愿景是开源)。例如,Stability AI 推出了 Stable Diffusion 1.6 的图像模型。 此外,在自然语言模型中,OpenAI 以 GPT3/3.5 和 ChatGPT 占据主导地位,但目前基于 OpenAI 构建的杀手级应用相对较少,且其 API 定价已下调过一次。不过 OpenAI 曾因服务压力太大暂停过 Chat GPT plus 的购买。 同时,还有其他相关动态,如微软发布了 Bing 品牌升级,Bing Chat 和 Bing Chat Enterprise 将成为 Copilot;Fable 发布了利用 LCM 实时生成图片的功能;英伟达发布了 Nemotron3 8B 的 LLM 以及 NVIDIA NeMo 端到端框架;Midjourney 动漫微调模型 Nijijourney 跟进了模型微调;Google 在多个国家推出了面向青少年的 Google Bard;Airbnb 收购了一家名为 Gameplanner AI 的人工智能初创公司。
2024-10-25
stable diffusion 3.5最新资讯
以下是关于 Stable Diffusion 3.5 的最新资讯: Stability AI 刚刚发布了 Stable Diffusion 3.5,其中 8B 的 Large 和 Turbo 已经开放,2B 的 Medium 会在 10 月 29 日发布。 ComfyUI 官方提供了示例工作流,尤其对于 RAM 低于 32GB 的用户,comfyanonymous 制作了额外的 scaled fp8 clip,您可以通过以下链接了解和使用: 如何使用: https://blog.comfy.org/sd35comfyui/ 工作流:https://huggingface.co/ComfyOrg/stablediffusion3.5fp8/tree/main scaled fp8 clip:https://huggingface.co/ComfyOrg/stablediffusion3.5fp8/blob/main/sd3.5_large_fp8_scaled.safetensors 不久之后,ControlNets 也将推出,为各种专业用例提供先进的控制功能。 我们很高兴在许可的社区许可下发布此模型,许可证的关键组成部分包括: 免费用于非商业用途:个人和组织可以免费将该模型用于非商业用途,包括科学研究。 免费用于商业用途(年收入高达 100 万美元):初创公司、中小型企业和创作者可以免费将该模型用于商业目的,只要其年总收入低于 100 万美元。 输出的所有权:保留所生成媒体的所有权,不受限制性许可影响。对于年收入超过 100 万美元的组织,请在此处联系咨询企业许可证。 虽然模型权重现在可以在 Hugging Face 上进行自托管,但您还可以通过以下平台访问模型: 、DeepInfra 深基础设施。 Stability AI 相信安全、负责任的人工智能实践,并采取审慎措施确保诚信从开发的早期阶段开始,已并将继续采取合理的措施来防止不良行为者滥用 Stable Diffusion 3.5。有关安全方法的更多信息,请访问稳定安全页面。
2024-10-23
stable diffusion 3.5最近资讯
以下是关于 Stable Diffusion 3.5 的最近资讯: 1. 10 月 29 日,将公开发布 Stable Diffusion 3.5 Medium。不久之后,ControlNets 也将推出,为各种专业用例提供先进的控制功能。您可以通过。 2. ComfyUI 为 Stable Diffusion 3.5 提供了示例工作流,尤其对于 RAM 低于 32GB 的用户,comfyanonymous 制作了额外的 scaled fp8 clip。使用方法及相关链接如下: 如何使用: https://blog.comfy.org/sd35comfyui/ 工作流:https://huggingface.co/ComfyOrg/stablediffusion3.5fp8/tree/main scaled fp8 clip:https://huggingface.co/ComfyOrg/stablediffusion3.5fp8/blob/main/sd3.5_large_fp8_scaled.safetensors 3. Stability AI 社区许可证关键组成部分: 免费用于非商业用途:个人和组织可免费用于非商业用途,包括科学研究。 免费用于商业用途(年收入高达 100 万美元):初创公司、中小型企业和创作者可免费用于商业目的,只要年总收入低于 100 万美元。 输出的所有权:保留所生成媒体的所有权,不受限制性许可影响。对于年收入超过 100 万美元的组织,请联系咨询企业许可证。 4. 访问模型的更多方式:虽然模型权重现在可在 Hugging Face 上自托管,还可通过以下平台访问模型:。 5. Stability AI 相信安全、负责任的人工智能实践,并采取审慎措施确保诚信从开发早期阶段开始,已并将继续采取合理措施防止不良行为者滥用 Stable Diffusion 3.5。有关安全方法的更多信息,请访问页面。 6. 即将推出更多相关内容。
2024-10-23
stable diffusion 3.5最近资讯
以下是关于 Stable Diffusion 3.5 的最近资讯: 1. 10 月 29 日,将公开发布 Stable Diffusion 3.5 Medium。不久之后,ControlNets 也将推出,为各种专业用例提供先进的控制功能。您可以通过。 2. ComfyUI 为 Stable Diffusion 3.5 提供了示例工作流,尤其对于 RAM 低于 32GB 的用户,comfyanonymous 制作了额外的 scaled fp8 clip。使用方法及相关链接如下: 如何使用: https://blog.comfy.org/sd35comfyui/ 工作流:https://huggingface.co/ComfyOrg/stablediffusion3.5fp8/tree/main scaled fp8 clip:https://huggingface.co/ComfyOrg/stablediffusion3.5fp8/blob/main/sd3.5_large_fp8_scaled.safetensors 3. Stability AI 社区许可证关键组成部分: 免费用于非商业用途:个人和组织可免费用于非商业用途,包括科学研究。 免费用于商业用途(年收入高达 100 万美元):初创公司、中小型企业和创作者可免费用于商业目的,只要年总收入低于 100 万美元。 输出的所有权:保留所生成媒体的所有权,不受限制性许可影响。对于年收入超过 100 万美元的组织,请联系咨询企业许可证。 4. 访问模型的更多方式:虽然模型权重现在可在 Hugging Face 上自托管,还可通过以下平台访问模型:。 5. Stability AI 相信安全、负责任的人工智能实践,并采取审慎措施确保诚信从开发早期阶段开始,已并将继续采取合理措施防止不良行为者滥用 Stable Diffusion 3.5。有关安全方法的更多信息,请访问页面。 6. 即将推出更多相关内容。
2024-10-23
帮我生成一个 AI 写作领域的产业图谱,只关注应用层,按照产品的类别来分类和举例
以下是 AI 写作领域应用层的产业图谱分类及举例: |序号|产品|主题|使用技术|市场规模|一句话介绍| ||||||| |1|Grammarly、秘塔写作猫|AI 智能写作助手|自然语言处理|数十亿美元|利用 AI 技术辅助用户进行高质量写作。| |2|阿里小蜜等电商客服|AI 智能客服外包服务|自然语言处理、机器学习|数十亿美元|为企业提供智能客服解决方案。|
2024-10-28
请阐述对比学习在图像分类和检测中的应用
在计算机视觉中,对比学习在图像分类和检测中有重要应用。 图像分类方面:图像分类是根据图像中的语义信息对不同类别的图像进行区分。对比学习通过让模型学习区分相似和不同的图像样本,从而更好地捕捉图像中的语义特征,提高分类的准确性。 目标检测方面:目标检测需要找出图像或视频中的目标物体,并检测出其位置和大小。对比学习可以帮助模型学习到更具判别性的特征表示,从而更准确地定位和识别目标物体。在多类别目标检测中,对比学习有助于区分不同类别的物体,提高检测的精度和效率。 总之,对比学习为图像分类和检测任务提供了有效的特征学习方法,有助于提升计算机视觉系统的性能。
2024-10-15
对比学习在图像分类中的应用
对比学习在图像分类中的应用主要体现在 OpenAI 的 CLIP 模型上。 CLIP 在预训练阶段,IE 使用带 mask 的 Transformer 抽取文本的全局特征,VE 使用 Resnet 或者 ViT 网络结构获取图片的全局特征。在 MI 部分,把同一对的 textimage 看成正样本,其余为负样本,做对比学习。对比学习一般会逐行和逐列分别求一次 softmax+crossentropy,对角线元素为正样本,非对角线元素为负样本,最终除以 2 取平均。值得注意的是温度系数 np.exp正好也符合温度系数的值域。OpenAI 称这样设置效果更好,也省去人工调参。此外,OpenAI 还使用了闭源的经过清洗后的多达 400M 的数据集,训练代码本身也是闭源的,这也是有后续 OpenCLIP 等工作的原因。 在做下游的分类任务时,CLIP 完全可以做 zeroshot,text 部分有很多模板选择,例如 a photo of{}等,最后效果出色,并且 ViT 的效果更好一点。 然而,CLIP 也存在局限性,在图像分类上效果很好,但直接使用在更复杂的 VQA/VR/VE 上效果不佳,并且训练昂贵,需要上千卡天的训练总时间(12 days on 256 V100)。 计算机视觉中,图像分类是根据图像中的语义信息对不同类别的图像进行区分。人和计算机理解图像的方式不一样,存在语义差异。人通过模式识别来分辨,计算机看到的是像素矩阵。计算机视觉的三大基础任务还包括目标检测和分割等。
2024-10-15
目前的ai工具如何分类?
目前的 AI 工具主要有以下分类: 1. 聊天工具:如常见的 AI 聊天机器人。 2. 绘画工具:例如图像生成器。 3. 视频工具:包括视频生成器。 4. 音乐工具:涵盖语音和音乐相关的工具。 5. 写作工具:如 AI 写作生成器。 6. 设计工具。 在访问量最高的 50 个 AI 工具中,“图像生成器”类别是最大的类别,有 14 个工具;“AI 聊天机器人”类别拥有 8 个工具;“AI 写作生成器”有 7 个工具;“视频生成器”和“语音和音乐”类别各有 5 个工具;“设计”类别有 4 个工具;“其他”类别有 7 个工具。
2024-09-11
人工智能分类
人工智能主要分为以下几类: 1. 按照智能程度划分: ANI(Artificial Narrow Intelligence,弱人工智能):只能做一件特定的事,例如智能音箱、网站搜索、自动驾驶、工厂与农场的应用等。 AGI(Artificial General Intelligence,通用人工智能):能够做任何人类可以做的事。 2. 在 Generative AI 的开发工具和基础设施方面: Orchestration(编排):涉及如 DUST、FIAVIE、LangChain 等公司,提供工具帮助开发人员管理和协调各个部分和任务,确保系统流畅运行。 Deployment, Scalability, & PreTraining(部署、可扩展性和预训练):包括 UWA mosaicm、NMAREL、anyscale 等公司,提供工具用于部署模型、保证可扩展性及进行预训练。 Context & Embeddings(上下文和嵌入):有 TRUDO、Llamalndex、BerriAI 等公司,提供工具帮助模型处理和理解语言上下文,以及将词语和句子转化为计算机可理解的形式。 QA & Observability(质量保证和可观察性):例如 Pinecone、drant、Vald 等公司,提供工具确保模型表现,并能监控模型的性能和状态。 3. 关键词接龙中的分类: 主体描述:Monkey, kpop monkey, thinker, Millennials, kpop girl, Buddha 环境与构图:cliff, Temple, post apocalyptic 背景:zen art, Art deco, vaporwave, pink moon, International version of the film effect, steampunk 光线:ethereal pink, pink moon 视角:Twist fantasy, Double Exposure 构图:levitating, jouy print 风格:Hiroshi Sugimoto, Edward Hopper, V for Vendetta, Vaporwave, Celadon green 艺术家:Hiroshi Sugimoto, Edward Hopper
2024-09-09
请选择一个产业,比如手机、汽车、石油化工等产业,围绕行业传感器的技术原理和应用,进行背景概况、传感器分类、发展历程、智能传感器、产业链结构、应用领域、发展趋势和展望等要点完成调研分析报告和PPT。
很抱歉,目前知识库中没有您所需的关于特定产业(如手机、汽车、石油化工等)中行业传感器的完整调研分析报告和 PPT 内容。但以下为您提供一个大致的框架和思路,您可以据此进行进一步的资料收集和研究: 一、背景概况 介绍所选产业的发展现状和重要性,阐述传感器在该产业中的关键作用。 二、传感器分类 列举该产业中常见的传感器类型,如压力传感器、温度传感器、位置传感器等,并说明其特点和适用场景。 三、发展历程 回顾传感器在该产业中的发展阶段,从早期的简单传感器到如今的高精度、智能化传感器的演变过程。 四、智能传感器 着重介绍智能传感器的特点和优势,如具备自诊断、自校准、自适应等功能。 五、产业链结构 分析传感器产业链的各个环节,包括原材料供应商、传感器制造商、系统集成商、终端用户等。 六、应用领域 详细阐述传感器在该产业的具体应用领域,如生产过程监控、质量检测、设备故障诊断等。 七、发展趋势和展望 探讨未来传感器在该产业的发展趋势,如微型化、集成化、智能化、无线化等,并对其前景进行展望。 希望以上框架对您有所帮助,祝您顺利完成调研分析报告和 PPT。
2024-09-06