以下是关于 FLUX stable diffusion 的相关信息:
结合ComfyUI的生图原理,这张图展示了扩散模型中的加噪和去噪过程。在ComfyUI的节点化界面中,每一步的操作都可以通过不同的模块来实现,用户可以控制潜在空间中的操作(如调度器和噪声的选择)、U-Net中的推理步骤(通过去噪模块实现)、以及条件输入(通过文本提示或图像引导)。[heading1]一、基础模型[content]ComfyUI使用预训练的扩散模型作为其核心,通常是Stable Diffusion模型。这些模型通过大量图像和文本对的训练,学会了将文本描述与视觉概念关联起来。其中包括SD1.5、SD2.0、SDXL、SD3、FLUX等模型。[heading1]二、文本编码[content]当用户输入文本提示时,ComfyUI首先使用CLIP(Contrastive Language-Image Pre-training)文本编码器将文本转换为向量表示。这个向量捕捉了文本的语义信息。
如果您曾尝试在太暗的情况下拍照,而拍出的照片全是颗粒状,那么这种颗粒状就是图像中“噪点”的一个例子。我们使用Stable Diffusion来生成艺术作品,但它实际上在幕后所做的是“清理”图像!不过,它比手机图像编辑器中的噪点消除滑块复杂得多。它实际上了解世界的样子、了解书面语言,并利用这些来指导(噪点消除)过程。例如,想象一下,如果我给了下面左边的图像给一位熟练的平面艺术家,并告诉他们这是一幅以H.R。Giger(瑞士画家、雕塑家与布景师,《异形》中的外星生物就是他的作品)的风格描绘的外星人弹吉他的画。我打赌他们可以精心清理它,创造出像右图那样的东西。(这些是稳定扩散的实际图像!)艺术家会利用他们对Giger的艺术作品的了解,以及对世界的了解(例如吉他应该是什么样子以及如何弹奏)来做到这一点。稳定扩散本质上是在做同样的事情![heading2]“推理步骤”[content]你熟悉大多数艺术生成工具中的“推理步骤”滑块吗?稳定扩散是逐步去除噪点的。这是一个运行25步的例子:外星吉他手的例子更有意义,因为你可以更清楚地看出它应该是什么样子的……但在上图中,起始图像看起来完全无法辨认!实际上,这个充满噪点的外星人例子其实是从过程的大约一半开始取的——它(最开始的图像)实际上也是从完全的噪点开始的!
作者:郑敏轩/Mike/六耳@郑敏轩https://space.bilibili.com/3461579519560151?spm_id_from=333.999.0.0[heading2]Flux制作团队由来:[content]Flux模型团队制作者:原stable diffusion核心团队因开源理念不合,出来成立“黑森林”团队。黑森林获3200万美元投资,拿出第一款产品:Flux[heading2]首次一次发布三种型号:[content]拿出来时有三种型号:Flux pro(最好的,闭源使用)Flux dev(开源,供学习研究使用,不支持商用)Flux schnell(开源,开源最彻底,支持商用)[heading2]参数量比较:[content]Flux的参数训练量达到了12B,且语言支持自然语言。12B我们类比一下8月6日的智谱发布的开源视频模型CogVideoX-2B,开源的是2B的一个模型,所以模型的视频推理结果不如快手的可灵。8月28日智谱最新开源了5B的视频模型。视频还在5B,由此可见图像12B确实是一个高度(开源里面)所以Flux一出现就占据极重要影响。Flux:训练参数12B(120亿)SD3 Large:训练参数8B(80亿)SD3 Medium:训练参数2B(20亿)[heading2]硬件要求变高:[content]由参数带来的,是硬件要求变高,推理dev版本的Flux模型时,最低显存需要16G,建议24G,模型本身大小是22多G,如果训练的话,经过优化目前16G也可以训练Lora模型,但是DB方式训练微调模型的话,除显存最低要24G外,要求内存也需要32G以上才行。