直达「 通往AGI之路 」飞书知识库 →
首页/问答列表/问答详情

SD 模型

回答

以下是关于 SD 模型的相关信息:

模型安装设置: 二维码做好后进入 SD 版块,需下载两个 SD 的 ControlNET 模型和一个预处理器。可添加公众号【白马与少年】,回复【SD】获取。在【QR ControlNET】文件夹中,后缀为【.yaml】的放在“……\sd-webui-aki-v4.2\extensions\sd-webui-controlnet\models”路径下,后缀为【.safetensors】的放在“……\sd-webui-aki-v4.2\models\ControlNet”路径下。选择“cheeseDaddys ”模型,填入描绘梦幻森林的关键词,同时将迭代步数(Steps)设置到 15,采样选择 DPM++ 2M Karras,图像大小设置到 768*768。

核心基础原理

  1. SD 模型是生成式模型,输入可以是图片、文本以及两者的结合,输出是生成的图片。
  2. 属于扩散模型,其整体逻辑特点是过程分步化与可迭代,为生成过程引入更多约束与优化提供可能。
  3. 是基于 Latent 的扩散模型,将输入数据压缩到 Latent 隐空间中,大幅提高计算效率并降低显存占用,是破圈关键。
  4. 从 CTO 视角看,是一个优化噪声的 AI 艺术工具。

工作流程: Stable Diffusion(SD)模型由 Stability AI 和 LAION 等公司共同开发,参数量约 1B,可用于文生图、图生图、图像 inpainting、ControlNet 控制生成、图像超分等任务。以文生图(txt2img)和图生图(img2img)任务为例,文生图任务是将一段文本输入到 SD 模型中,经过一定迭代次数,输出符合文本描述的图片;图生图任务在输入文本基础上再输入一张图片,SD 模型根据文本提示将输入图片重绘以更符合文本描述。输入的文本信息需转化为 SD 模型能理解的机器数学信息。

内容由 AI 大模型生成,请仔细甄别(powered by aily)

参考资料

【SD】今天就学会!专属AI二维码订制

二维码做好之后,我们进入SD的版块,需要下载两个SD的ControlNET模型和一个预处理器,我已经打包好了,可以添加我的公众号【白马与少年】,回复【SD】就发给你。在【QR ControlNET】的文件夹中,后缀为【.yaml】的放在“……\sd-webui-aki-v4.2\extensions\sd-webui-controlnet\models”这个路径下,后缀为【.safetensors】的放在“……\sd-webui-aki-v4.2\models\ControlNet”这个路径下。我这边随便选择一个“cheeseDaddys ”的模型,填入一段描绘梦幻森林的关键词。在这个美化二维码的过程中,关键词是非常重要的。接着,我们把迭代步数(Steps)设置到15,采样选择DPM++ 2M Karras,图像大小设置到768*768。

教程:深入浅出完整解析Stable Diffusion(SD)核心基础知识 - 知乎

1.SD模型是生成式模型,输入可以是图片,文本以及两者的结合,输出是生成的图片。2.SD模型属于扩散模型,扩散模型的整体逻辑的特点是过程分步化与可迭代,这给整个生成过程引入更多约束与优化提供了可能。3.SD模型是基于Latent的扩散模型,将输入数据压缩到Latent隐空间中,比起常规扩散模型,大幅提高计算效率的同时,降低了显存占用,成为了SD模型破圈的关键一招。4.站在CTO视角,将维度拉到最高维,Rocky认为SD模型是一个优化噪声的AI艺术工具。

教程:深入浅出完整解析Stable Diffusion(SD)核心基础知识 - 知乎

Stable Diffusion(SD)模型是由Stability AI和LAION等公司共同开发的生成式模型,总共有1B左右的参数量,可以用于文生图,图生图,图像inpainting,ControlNet控制生成,图像超分等丰富的任务,本节中我们以文生图(txt2img)和图生图(img2img)任务展开对Stable Diffusion模型的工作流程进行通俗的讲解。文生图任务是指将一段文本输入到SD模型中,经过一定的迭代次数,SD模型输出一张符合输入文本描述的图片。比如下图中输入了“天堂,巨大的,海滩”,于是SD模型生成了一个美丽沙滩的图片。SD模型的文生图(txt2img)过程而图生图任务在输入本文的基础上,再输入一张图片,SD模型将根据文本的提示,将输入图片进行重绘以更加符合文本的描述。比如下图中,SD模型将“海盗船”添加在之前生成的那个美丽的沙滩图片上。SD模型的图生图(img2img)过程那么输入的文本信息如何成为SD模型能够理解的机器数学信息呢?

其他人在问
SD网址多少
以下是一些常用的与 SD 相关的网址: 另外,SD 是 Stable Diffusion 的简称。它是由初创公司 StabilityAI、CompVis 与 Runway 合作开发,2022 年发布的深度学习文本到图像生成模型。其代码模型权重已公开发布,当前版本为 2.1 稳定版(2022.12.7),源代码库:github.com/StabilityAI/stablediffusion 。我们可以通过一系列的工具搭建准备,使用 SD 进行想要的图片生成。 关于 SD 的安装: 系统需为 Win10、Win11 。 Win 系统查看配置。 配置达标跳转至对应安装教程页: 。 配置不够可选择云端部署(Mac 也推荐云端部署): 。 备选:SD 好难,先试试简单的无界 AI: 。
2024-09-18
蛟龙16pro配置(处理器R7-7745HX,显卡RTX4060 8G,硬盘512GPCIE4.0SSD)可以用于审计人员本地化部署大模型用于数据分析工作吗
蛟龙 16pro 的配置(处理器 R77745HX,显卡 RTX4060 8G,硬盘 512G PCIE4.0 SSD)对于审计人员本地化部署大模型用于数据分析工作来说,可能存在一定的局限性。 处理器 R77745HX 具有一定的计算能力,但在处理大规模数据和复杂的模型运算时,其性能可能不够强劲。 显卡 RTX4060 8G 对于一些较为复杂的图形处理和计算任务能够提供一定的支持,但对于大规模的深度学习模型训练和数据分析,可能会显得不足。 512G 的 PCIE4.0 SSD 硬盘容量相对较小,在存储大量数据时可能会很快耗尽空间。 综上所述,该配置在一定程度上可以用于简单的数据分析任务,但对于较为复杂和大规模的大模型本地化部署及数据分析工作,可能需要更强大的硬件配置,例如更高性能的处理器、更大容量和更高性能的显卡,以及更大的存储空间。
2024-09-14
sd和comfy的详细学习教程推荐
以下是关于系统学习 SD 和 Comfy 的详细教程推荐: 学习 SD 提示词的步骤: 1. 学习基本概念:了解 Stable Diffusion 的工作原理和模型架构,理解提示词如何影响生成结果,掌握提示词的组成部分(主题词、修饰词、反面词等)。 2. 研究官方文档和教程:通读 Stable Diffusion 官方文档,研究来自开发团队和专家的教程和技巧分享。 3. 学习常见术语和范例:熟悉 UI、艺术、摄影等相关领域的专业术语和概念,研究优秀的图像标题和描述作为提示词范例。 4. 掌握关键技巧:学习如何组合多个词条来精确描述想要的效果,掌握使用“()”、“”等符号来控制生成权重的技巧,了解如何处理抽象概念、情感等无形事物的描述。 5. 实践和反馈:使用不同的提示词尝试生成各种风格和主题的图像,对比提示词和实际结果,分析原因,总结经验教训,在社区内分享结果,请教高手,获取反馈和建议。 6. 创建提示词库:根据主题、风格等维度,建立自己的高质量提示词库,将成功案例和总结记录在案,方便后续参考和复用。 7. 持续跟进前沿:关注 Stable Diffusion 的最新更新和社区分享,及时掌握提示词的新技术、新范式、新趋势。 相关入门教程链接: 1. 2. 3. 4. 5. 6. 7. 8. 9. 关于 Comfy 的学习,您可以参考以下知乎教程中的相关部分:,其中包含零基础使用 ComfyUI 搭建 Stable Diffusion 推理流程的内容。
2024-09-11
SD大模型下载网站
以下是一些 SD 大模型的下载网站和相关信息: Civitai(https://civitai.com/):这是一个常用的网站,有各种风格的大模型,如真实系、二次元、游戏 CG 风等,但需要科学上网。如果不会科学上网,也可以去启动器的界面直接下载模型,但这里看不见预览图。下载的大模型应放在根目录的【……\\models\\Stablediffusion】文件夹下。 对于 Fooocus,大模型(base 和 Refiner)默认放在这里:\\ Fooocus_win64_1110\\ Fooocus\\models\\checkpoints;LoRA 模型默认放在这里:\\ Fooocus_win64_1110\\ Fooocus\\models\\loras。如果单独安装,需要下载的模型链接如下: SDXL 基础模型:https://huggingface.co/stabilityai/stablediffusionxlbase1.0/resolve/main/sd_xl_base_1.0_0.9vae.safetensors refiner 模型:https://huggingface.co/stabilityai/stablediffusionxlrefiner1.0/resolve/main/sd_xl_refiner_1.0_0.9vae.safetensors LoRA 模型:https://huggingface.co/stabilityai/stablediffusionxlbase1.0/resolve/main/sd_xl_offset_examplelora_1.0.safetensors 在 Civitai 网站的使用方法: 1. 科学上网(无法教授具体方法,需自行解决)。 2. 点击右上角的筛选按钮,在框框里面找到自己需要的模型类型,如 Checkpoint=大模型,LoRA=Lora。 3. 看照片,感兴趣的点进去,点击右边的“Download”下载,保存到电脑本地,文件保存位置在前面提到的相关文件夹。另外,还可以点击左上角的“Images”,看到喜欢的图片点进去,点进去后的页面可看到图片的全部信息,直接点击 Lora 和大模型,可直接跳转到下载页面。点击最下面的“Copy...Data”可复制图片的所有信息,回到 SD 粘贴到关键词的文本框,点击右边的按钮,这些信息就会自动分配。需要注意的是,大模型需要手动更换。
2024-09-06
sd3大模型的教程
以下是关于 SD3 大模型的一些教程资源: 【AI 艺境】ComfyUI 快手 Kolors 模型基础使用工作流全套模型网盘分享: 作者:极点 AI 类型:教学视频 链接: 备注:商用工作流请自行辨别 拳打 SD3 脚踢 MidjourneyV6?某手开源的可图 Kolors 到底是不是真的强,内附 Comfyu 部署教程: 作者:淼淼爸的 AI 笔记 类型:评测视频 链接: 国产超牛的开源大模型可图 kolors: 作者:大桶子 AI 类型:评测视频 链接:(https://www.bilibili.com/video/BV1MZ421T79S/? 另外,关于 SD3 的一些说明: SD3 已开放下载(并非开源,是收费的)。 基础模型包括:主模型“sd3_medium”,文本编码器“clip_g”“clip_l”“t5xxl_fp16/t5xxl_fp8_e4m3fn”。在 ComfyUI 中使用时需分别通过模型加载器和 CLIP 加载器加载,“t5xxl”是非必要项。 融合了文本编码器的模型有 2 个:无 T5 的“sd3_medium_incl_clips = sd3_medium + clip_g + clip_l”,有 T5 的“sd3_medium_incl_clips_t5xxlfp8 = sd3_medium + clip_g + clip_l + t5xxl_fp16/t5xxl_fp8_e4m3fn”。在 ComfyUI 中使用时直接用模型加载器加载主模型即可,无需 CLIP 加载器(如同之前的 SD1.5 或 SDXL 的基础工作流)。下载地址(huggingface 比较慢,多放几个百度云盘)。
2024-09-02
sd课程
以下是为您提供的关于 Stable Diffusion(SD)课程的相关信息: 1. 有作者“白马少年”出品的“爆肝制作!Stable Diffusion 零基础入门宝典”课程。作者从事平面设计行业,因对 SD 的学习和研究,在公众号分享了五十几篇使用心得的原创文章,并录制了一套近 80 个课时的零基础入门课程。课程链接:https://www.cctalk.com/m/group/90942118?promoteId=84811D61000B39B9263146248464A904 2. 推荐学习 Nenly 同学在 B 站的“第一套 Stable Diffusion 系统课程”合集。在安装完 SD 后,强烈推荐跟着此合集走一遍,可快速掌握 SD 的基础技能,完整走一遍基础教程大概需要 4 小时左右。合集链接: ,SD 安装教程:https://qa3dhma45mc.feishu.cn/wiki/Ouiyw6v04iTJlmklDCcc50Jenzh
2024-09-01
国内评分最高的国内大模型是什么
根据目前的测评报告,在国内大模型中,得分较高的有文心一言 4.0(API),其总分 79.02 分。在工具使用的测评中,智谱清言表现不俗,取得 83.78 的高分,排名国内模型第一。过去八个月国内模型在 SuperCLUE 基准上的第一名多次为文心一言 4.0。综合来看,国内大模型在不断进步,与国外模型的差距在逐渐缩小,但不同模型在不同方面的表现各有优劣。
2024-09-17
本地知识库系统如何利用大语言模型
以下是关于本地知识库系统如何利用大语言模型的相关内容: 一、部署大语言模型 1. 下载并安装 Ollama 根据电脑系统,从 https://ollama.com/download 下载 Ollama。 下载完成后,双击打开,点击“Install”。 安装完成后,将 http://127.0.0.1:11434/ 复制进浏览器,若出现相关字样则表示安装完成。 2. 下载 qwen2:0.5b 模型(0.5b 方便测试,设备充足可下载更大模型) Windows 电脑:点击 win+R,输入 cmd 点击回车。 Mac 电脑:按下 Command(⌘)+ Space 键打开 Spotlight 搜索,输入“Terminal”或“终端”,选择“终端”应用程序。 复制相关命令行并粘贴回车,等待自动下载完成。(下载久了若卡住,鼠标点击窗口,键盘点空格可刷新) 二、了解 RAG 利用大模型的能力搭建知识库是 RAG 技术的应用。在进行本地知识库搭建实操前,需对 RAG 有大概了解。大模型训练数据有截止日期,当需要依靠不在训练集中的数据时,主要通过检索增强生成 RAG 实现。RAG 应用可抽象为 5 个过程: 1. 文档加载:从多种来源加载文档,LangChain 提供 100 多种不同的文档加载器,包括 PDF 等非结构化数据、SQL 等结构化数据以及代码等。 2. 文本分割:文本分割器把 Documents 切分为指定大小的块,称为“文档块”或“文档片”。 3. 存储:涉及将切分好的文档块嵌入转换成向量形式,并将向量数据存储到向量数据库。 4. 检索:通过某种检索算法找到与输入问题相似的嵌入片。 三、通过 Open WebUI 使用大模型 1. 首先访问相关网址,打开页面时使用邮箱注册账号。 2. Open WebUI 一般有两种使用方式: 聊天对话。 RAG 能力,可让模型根据文档内容回答问题,这是构建知识库的基础之一。 3. ChatGPT 访问速度快、回答效果好的原因: 快:GPT 大模型部署的服务器配置高。 好:GPT 大模型的训练参数多、数据更优以及训练算法更好。
2024-09-17
算法和模型是什么关系
算法和模型是相互关联但又有所区别的概念。 模型是对问题或现象的一种抽象表示,它描述了数据之间的关系和模式。例如,在卷积神经网络(CNN)中,其结构就是一种模型,主要用于模式识别任务。 算法则是用于解决问题或实现模型的一系列步骤和方法。在 AI 领域,算法用于训练和优化模型。比如在自然语言处理和图像识别中,某些算法能够使 CNN 在计算上更有效、更快速,从而击败大多数其他算法。 随着我们对大脑工作机制的认知加深,神经网络的算法和模型也会不断发展和进步。 同时,在确保 AI 模型的道德和伦理性方面,也涉及到一系列的算法设计和处理步骤,如数据清洗、算法设计以减少偏见和不公平性、制定道德和伦理准则、保持透明度、接收用户反馈、持续监控、人工干预以及对相关人员进行教育和培训等。 另外,生成式人工智能模型正在从根本上改变我们与计算机的关系,使其有可能成为我们的伴侣,这也对我们对关系的定义提出了新的挑战。
2024-09-15
有什么大模型是可以预测人的行为或者将来发展的
以下是一些与预测人的行为或将来发展相关的大模型信息: 斯坦福大学和谷歌的生成式智能体能够产生令人信服的人类行为代理。相关链接:https://syncedreview.com/2023/04/12/stanfordugooglesgenerativeagentsproducebelievableproxiesofhumanbehaviours/ 关于大模型的未来展望,认为它们将能够读取和生成文本,拥有更丰富的知识,具备多种能力,如查看和生成图像与视频、听取发声创作音乐、利用系统 2 进行深入思考等,还可能在特定领域内自我优化和针对任务进行定制调整。 同时,还为您提供了一些大模型相关的其他资源链接: Google Research,2022 & beyond:Generative models:https://ai.googleblog.com/2023/01/googleresearch2022beyondlanguage.htmlGener ativeModels Building the most open and innovative AI ecosystem:https://cloud.google.com/blog/products/aimachinelearning/buildinganopengenerativ eaipartnerecosystem Generative AI is here.Who Should Control It?https://www.nytimes.com/2022/10/21/podcasts/hardforkgenerativeartificialintelligen ce.html Generative AI:Perspectives from Stanford HAI:https://hai.stanford.edu/sites/default/files/202303/Generative_AI_HAI_Perspectives.pd f Generative AI at Work:https://www.nber.org/system/files/working_papers/w31161/w31161.pdf The future of generative AI is niche,not generalized:https://www.technologyreview.com/2023/04/27/1072102/thefutureofgenerativeaiis nichenotgeneralized/ Attention is All You Need:https://research.google/pubs/pub46201/ Transformer:A Novel Neural Network Architecture for Language Understanding:https://ai.googleblog.com/2017/08/transformernovelneuralnetwork.html
2024-09-15
有什么模型是可以预测人的行为和发展的
以下是一些可以用于预测人的行为和发展的模型: 1. 思维模型: 战略与决策模型,如 SWOT 分析、MECE 原则等,专注于帮助个人或组织做出更好的决策和解决问题。 目标设定与执行的模型,如 SMART 原则、PDCA 循环等,提供了设置和实现目标的框架,确保行动的指向性和高效性。 系统思维模型,如反馈循环、杠杆点等,用于理解和处理复杂系统及其动态,促进整体观和互联性思考。 心理学模型,如认知偏误、习惯形成等,揭示人在认知和行为上的模式和偏差,帮助理解和预测人类行为。 学习与创新模型,如费曼学习法、思维导图等,旨在促进知识获取、深化理解和创造性思考。 2. Token 预测:看似简单的统计学技巧,其中蕴含巨大潜力。预测下一个语言符号(Token)的质量,反映了对语言背后隐藏的语义和知识的理解程度。一个足够强大的语言模型,可以模拟出超越现实的假想情况,通过人类数据进行推理和外推,从而有可能预测一个睿智、博学和能力非凡的人的行为举止。
2024-09-15
推荐几个好用的大语言模型
以下是一些好用的大语言模型: 1. OpenAI 的 GPT4:在多种任务上表现卓越,包括文本生成、理解、翻译以及各种专业和创意写作任务。 2. Anthropic 公司的 Claude 3:在特定领域和任务上有出色能力。 3. 谷歌的 Gemini。 4. 百度的文心一言。 5. 阿里巴巴的通义大模型。 此外,还有一些在特定方面表现突出的大语言模型,如: 1. Meta 的 Llama2 系列。 2. 评估中的 GPT3(包括 textada001、textbabbage001、textcurie001 和 textdavinci002)。 3. LaMDA(有 422M、2B、8B、68B 和 137B 参数的模型)。 4. PaLM(有 8B、62B 和 540B 参数的模型)。 5. UL2 20B。 6. Codex(OpenAI API 中的 codedavinci002)。 如果想了解国内的大模型效果,可以参考第三方基准评测报告: 。内容由 AI 大模型生成,请仔细甄别。
2024-09-14