直达「 通往AGI之路 」飞书知识库 →
首页/问答列表/问答详情

flux和sdXL出图的区别

回答

Flux 和 SDXL 出图主要有以下区别:

  1. 生成人物外观:Flux 存在女生脸油光满面、下巴等相同外观问题,而 SDXL 相对在这方面有改进。
  2. 模型构成:SDXL 由 base 基础模型和 refiner 优化模型两个模型构成,能更有针对性地优化出图质量;Flux 中 Dev/Schnell 是从专业版中提取出来,导致多样性丧失。
  3. 处理方式:在低显存运行时,可采用先使用 Flux 模型进行初始生成,再用 SDXL 放大的分阶段处理方式,有效控制显存使用。
  4. 模型参数和分辨率:SDXL 的 base 模型参数数量为 35 亿,refiner 模型参数数量为 66 亿,总容量达 13G 之多,基于 1024*1024 的图片进行训练,可直接生成 1000 分辨率以上的图片,拥有更清晰的图像和更丰富的细节;而 Flux 在这方面相对较弱。
内容由 AI 大模型生成,请仔细甄别(powered by aily)

参考资料

Stuart:Flux女生脸总是油光满面, PG下巴? -- 教你解决它!

这是生成式AI中的一个常见问题,即模型生成的人具有相同的外观。与SD1.5/SDXL不同,这不仅仅是由于多样化的数据集收敛到单个标记(如“女性”)。在Flux中,Dev/Schnell是从专业版中提取出来的,导致了多样性的丧失。该LoRA是在Flux生成的最通用的女性照片上训练的。然后以负权重应用此LoRA,它将作为一种负面提示起作用,但不需要使用负面提示!通过使用这种巧妙的技巧,LoRA基本上会告诉Flux生成任何除了典型的Flux面孔之外的东西。结果是,我们每次都能得到美丽的独特面孔!至于说为什么权重在-0.6上下效果好,这里有那个心动小姐姐的对比图,大家可以感受下不同权重的效果差别.文中用到的工作流和Lora,仅4M:[workflow(19).json](https://bytedance.feishu.cn/space/api/box/stream/download/all/SVXhbFArzoncYKxmvrWcetq7ncd?allow_redirect=1)[SameFace_Fix.safetensors](https://bytedance.feishu.cn/space/api/box/stream/download/all/KLeZbsI5lo42p1xlclbclTrJnGc?allow_redirect=1)

ComfyUI FLUX低显存运行

这个方法的目的是让FLUX模型能在较低的显存情况下也能运行.分阶段处理的思路:1.使用Flux模型进行初始生成,在较低分辨率下工作以提高效率2.采用两阶段处理:先用Flux生成,后用SDXL放大,效控制显存的使用3.使用SD放大提升图片质量工作流的流程:初始图像生成(Flux):UNETLoader:加载flux1-dev.sft模型DualCLIPLoader:加载t5xxl和clip_l模型VAELoader:加载flux-ae.sftCLIPTextEncode:处理输入提示词BasicGuider和RandomNoise:生成初始噪声和引导SamplerCustomAdvanced:使用Flux模型生成初始图像VAEDecode:解码生成的潜在图像初始图像预览:PreviewImage:显示Flux生成的初始图像图像放大和细化(SDXL):CheckpointLoaderSimple:加载SDXL模型(fenrisxl_SDXLLightning.safetensors)UpscaleModelLoader:加载RealESRGAN_x4.pth用于放大VAELoader:加载sdxl_vae.safetensorsImageSharpen:对初始图像进行锐化处理UltimateSDUpscale:使用SDXL模型和放大模型进行最终的放大和细化最终图像预览:PreviewImage:显示最终放大和细化后的图像

【SD】向未来而生,关于SDXL你要知道事儿

首先,我们来了解一下sdxl是什么。它是Stable Diffusion的开发公司最新发布的一款图像生成的大模型,我们以往所使用的模型,绝大部分都是在sd1.5的官方模型上衍生的微调大模型。虽然sd官方的模型直接生图不怎么样,但是由各路大神微调出来的模型却是相当惊艳,这也是开源软件的厉害之处。但是这一次,sdxl1.0版本的官方大模型有了一个极强的升级,它的base模型参数数量为35亿,refiner模型参数数量则达到了66亿。可能有小伙伴会疑问,为什么sdxl的模型有两个呢?这也正是SDXL相较于SD1.5或者2.1的最大区别,SDXL是由base基础模型和refiner优化模型两个模型构成,它可以在base模型的基础上再使用优化模型进行绘画,对比之前的单模型能更有针对性的优化出图质量。而且根据官方的测试显示,sdxl1.0对比之前的sd1.5和2.1,审美偏好有了很大的提升。哪怕是只用base模型出图的效果也好了不少,甚至有直逼midjourney的趋势。我总结了一下,SDXL厉害的地方主要有以下几点:[heading2]1.更大的体积和分辨率[content]从模型的容量上就可以看出来,sd1.5的大小为4G,sd2.1的大小为5G,而SDXL的base+refiner容量有13G之多。它这么庞大的原因,主要是因为SDXL是基于1024*1024的图片进行训练的,拥有更清晰的图像和更丰富的细节。而我们知道,之前的sd1.5只有512*512的分辨率。所以,这就是为什么我们在之前输出高分辨率图片的时候会出现人物肢体混乱的情况,因为sd以为我们在同时输出多张图片。在SDXL中,我们就可以直接生成1000分辨率以上的图片,再也不用担心会出现混乱的问题,并且细节的提升使它的绘画质量也达到了惊人的地步。

其他人在问
flux和sd3.5出图的区别
Flux 和 SD3.5 出图存在以下区别: 1. 模型性质:Flux.1 有多种版本,如开源不可商用的 FLUX.1等。而 SD3.5 未提及相关性质。 2. 训练参数:Flux.1 的训练参数高达 120 亿,远超 SD3 Medium 的 20 亿。 3. 图像质量和提示词遵循能力:Flux.1 在图像质量、提示词跟随、尺寸适应、排版和输出多样性等方面超越了一些流行模型,如 Midjourney v6.0、DALL·E 3和 SD3Ultra 等。 4. 应用场景:Flux.1 可以在 Replicate 或 fal.ai 等平台上试用,支持在 Replicate、fal.ai 和 Comfy UI 等平台上使用,并且支持用户根据自己的数据集进行微调以生成特定风格或主题的图像。而 SD3.5 未提及相关应用场景。 5. 本地运行:文中尝试了在没有 N 卡,不使用复杂工作流搭建工具的 Mac Mini M1 上运行 FLUX.1,以及在边缘设备 Raspberry PI5B 上运行的情况,未提及 SD3.5 的相关内容。 6. 模型安装部署:对于 Flux.1,不同版本的模型下载后放置的位置不同,如 FLUX.1应放在 ComfyUI/models/unet/文件夹中。而 SD3.5 未提及相关安装部署内容。 7. 显存处理:对于 Flux.1,如果爆显存,“UNET 加载器”节点中的 weight_dtype 可以控制模型中权重使用的数据类型,设置为 fp8 可降低显存使用量,但可能会稍微降低质量。而 SD3.5 未提及相关显存处理内容。 8. 提示词使用:在训练 Flux 时,应尽量使用长提示词或自然语言,避免使用短提示词,因为 T5 自带 50%的删标。而 SD3.5 未提及相关提示词使用内容。
2024-12-20
flux1-depth-dev模型存放路径
flux1depthdev 模型的存放路径如下: 1. 下载 flux1depthdev 模型放到 ComfyUI/models/diffusion_models/文件夹中。 夸克网盘:链接:https://pan.quark.cn/s/571d174ec17f 百度网盘:见前文 2. depth lora 模型:https://huggingface.co/blackforestlabs/FLUX.1Depthdevlora ,放到:comfyUI\\models\\loras 。 3. 百度网盘分享的 flux1depthdevlora.safetensors : 链接:https://pan.baidu.com/s/10BmYtY3sU1VQzwUy2gpNlw?pwd=qflr 提取码:qflr
2024-12-17
flux模型为什么总是生成动漫风格
Flux 模型生成动漫风格可能有以下原因: 1. 开源社区的发展:FLUX 发布后,其周边生态发展迅速,有多种相关模型和训练脚本被开发,包括动漫 Lora 等,这为生成动漫风格提供了支持。 2. 优秀的图片质量和美学调教风格:FLUX 具有优秀的图片质量和偏向真实的美学调教风格,这使得它能够适应多种风格的生成,包括动漫风格。 3. 提示词和参数设置:在使用 Flux 模型时,输入的提示词和设置的参数可能会引导模型生成动漫风格的图像。 同时,关于模型的更多信息,您可以参考以下链接获取: 1. 褪色胶片风格 Flux Lora 模型下载:https://www.liblib.art/modelinfo/4510bb8cd80142168dc42103d7c20f82?from=personal_page 2. Xlabs 发布的基于 FLUX 的 Controlnet 模型和 Lora 模型的训练脚本:https://github.com/XLabsAI/xflux 3. Xlabs 的多个 Lora 下载:https://huggingface.co/XLabsAI/fluxRealismLora 4. InstantX 训练的 Canny 模型:https://huggingface.co/InstantX/FLUX.1devControlnetCannyalpha
2024-12-15
flux怎么提升生图速度需要哪些依赖
要提升 Flux 的生图速度,以下是一些相关的依赖和要点: 1. 条件引导:在去噪过程中,模型使用编码后的文本向量来引导图像生成,确保生成的图像与输入的文本描述相符。 2. 采样器:ComfyUI 提供了多种采样算法(如 Euler、DDIM、DPM++等)来控制去噪过程,不同的采样器可能会影响生成速度和结果。 3. Vae 编码:VAE 由编码器和解码器组成。编码器输入图像并输出表示其特征的概率分布,解码器将概率分布映射回图像空间。 4. 结果输出:ComfyUI 最终将生成的图像显示在界面上,用户可进行保存、编辑或用于其他目的。 5. 额外控制:ComfyUI 支持多种高级功能,如图像到图像、Lora、ControlNet、ipadapter 等。 6. 低配置方案:对于显存不够 16G 的情况,开源社区有优化方案。如 NF4 来自 controlnet 的作者,GGUF 包含多个版本。NF4 模型可从 https://huggingface.co/lllyasviel/flux1devbnbnf4/blob/main/flux1devbnbnf4.safetensors 下载,放置在 ComfyUI/models/checkpoint/中,其配套节点插件可通过 git clone https://github.com/comfyanonymous/ComfyUI_bitsandbytes_NF4.git 获取。GGUF 模型可从 https://huggingface.co/city96/FLUX.1devgguf/tree/main 下载,配套节点插件为 https://github.com/city96/ComfyUIGGUF 。在最新版本的 ComfyUI 中,GGUF 的节点插件可在 Manager 管理器中搜到下载安装,NF4 的配套节点插件则搜不到。使用精度优化的低配模型时,工作流和原版不同。相关生态发展迅速,有 Lora、Controlnet、IPadpter 等,字节最近发布的 Flux Hyper lora 可实现 8 步快速生图。
2024-12-09
FLUX stable diffusion
以下是关于 FLUX stable diffusion 的相关信息: ComfyUI 的生图原理:ComfyUI 使用预训练的扩散模型作为核心,包括 FLUX 等模型。在节点化界面中,用户可通过不同模块控制潜在空间操作、UNet 中的推理步骤及条件输入。 稳定扩散的运作:稳定扩散通过逐步去除图像中的噪点来生成艺术作品,它了解世界和书面语言以指导噪点消除过程。 Flux 工具: 制作团队:原 stable diffusion 核心团队因开源理念不合,成立“黑森林”团队,推出 Flux。 型号:首次发布三种型号,包括 Flux pro(闭源使用)、Flux dev(开源,供学习研究,不支持商用)、Flux schnell(开源,开源最彻底,支持商用)。 参数量:参数训练量达 12B,语言支持自然语言。相比之下,SD3 Large 训练参数 8B,SD3 Medium 训练参数 2B。 硬件要求:推理 dev 版本的 Flux 模型时,最低显存需要 16G,建议 24G,模型本身大小约 22G。训练时,优化后 16G 可训练 Lora 模型,DB 方式训练微调模型除显存最低 24G 外,内存需 32G 以上。
2024-11-29
flux和lora分别是什么意思
Flux 是一种在图像转换和处理方面具有特定功能的工具。它具有多种功能,如使用 FLUX.1 Canny / Depth 进行结构调节,通过边缘或深度检测来在图像转换过程中保持精确控制;使用 FLUX.1 Redux 进行图像变化和重新设计,给定输入图像可以重现具有轻微变化的图像。 Lora 是一种低阶自适应模型,可以理解为基础模型(如 Checkpoint)的小插件。在生图时可有可无,但对于控制面部、材质、物品等细节有明显价值,旁边的数值是其权重。
2024-11-25
文生图中DiT架构比SDXL架构好在哪
DiT 架构相比 SDXL 架构具有以下优势: 1. Scaling 能力:相比于 Unet,Transformer 结构的 Scaling 能力更受认可,即模型参数量越大,性能越强。 2. 额外信息处理:DiT 在 Vision Transformer 模块基础上做了略微修改,能够在图片生成过程中接受一些额外的信息,如时间步 t 和标签 y。 3. 场景模拟真实性:Sora 背后的 DiT 架构在大数据量情况下具有强大的刻画能力,能展现出类似大语言模型涌现出逻辑推理等能力的现象。 4. 文本编码器:在提升文生图模型的语义理解能力方面,新的文生图模型纷纷优化文本编码器的能力,而 HunyuanDiT 作为使用 DiT 架构的模型,在中文生图方面有一定进展,但开源界中文、细粒度文生图模型的文本编码器仍有较大优化空间。
2024-08-20
如果给AI数据,AI可以做出小波分析并出图吗
目前的 AI 技术在给定相关数据的情况下,是有可能进行小波分析并出图的。但这取决于多个因素,如数据的质量、数量、特征,以及所使用的 AI 模型和算法的能力和适应性。一些专门为数据分析和图像处理设计的 AI 模型,经过适当的训练和配置,能够处理数据并生成小波分析的结果图像。然而,要实现准确和有意义的小波分析及出图,还需要对数据进行预处理、选择合适的模型架构,并进行精细的调参和优化。
2024-10-31
给我找国内较好的Ai设计出图网站
以下是为您推荐的国内较好的 AI 设计出图网站: 爱设计 PPT:在国内 AI 辅助制作 PPT 的产品领域表现出色,其背后有强大的团队,能敏锐把握 AI 与 PPT 结合的市场机遇,已确立市场领先地位。对于经常制作 PPT 的商务人士、教育工作者、学生等都是值得尝试的工具,能提高效率并保证高质量输出。 如果您想了解关于 AI 生成 CAD 图的相关资料,可以参考以下几个方面: 学术论文:通过 Google Scholar、IEEE Xplore、ScienceDirect 等学术数据库搜索。 专业书籍:查找相关专业书籍。 在线课程和教程:参加 Coursera、edX、Udacity 等平台上的相关课程,在 YouTube 等视频平台上查找教程和演示视频。 技术论坛和社区:加入如 Stack Overflow、Reddit 的 r/AI 和 r/CAD 等,关注相关博客和新闻网站。 开源项目和代码库:探索 GitHub 等开源平台上的相关项目,例如 OpenAI 的 GPT3、AutoGPT 等在 CAD 设计中的应用。 企业案例研究:研究 Autodesk、Siemens 等公司在 AI 在 CAD 设计中的应用案例。 以下是一些用户在工作中对出图的需求示例: |用户|联系方式|需求| |||| |kone|18616571618|AI 短片、AI 商业广告| |晓涵|17801234978|做视频| |uohigher|13902973307|个人学习| |卿卿子|18610036923|图片批处理| |lok|18529409793|设计| |hell 小明|13590623865|产品图| |iseeu|15532394695|提高工作效率,页面设计,配文出图| |大白光|17704034008|出图和视频| |三川|18681537236|出图和 AI 出视频| |李小蜗|18366606265|动漫真人电影| |Lucky|18475643966|出图,视频| |无名之辈|15813236448|自媒体 ip 打造,影音行业的创新,母婴等电商行业的赋能| |龙|13911904101|画图,工作,变现| |colour|19977743192|工作流设计| |小熠|13242135972|视频、图片处理| |顺势上马|/|自媒体和电商办公等| |叉子|15103211190|儿童绘图,小红书引流| |harry|15921430685|兴趣学习,自媒体素材,自定义节点开发| |古戈尔|18975394699|视频,动画| |二师兄|13818462550|图像流制作,装修工程和建筑工程| |fyu|15880036058|生图|
2024-10-29
相同的参数下,用SD comfyui出图可以和SD webui出图保持图片效果一模一样么?
理论上,在应用完全相同参数(如 Step、CFG、Seed、prompts)的情况下,SD ComfyUI 出图和 SD WebUI 出图应当能保持图片效果一模一样。但在实际操作中可能会存在一些差异,比如: 提示词的多个条件下,SD 生成的图像可能无法全部满足,这与提示词引导系数有关,该系数关系到出图与文字的相关程度。 不同的模型和配置也可能影响出图效果,例如 SDXL 的大模型分为 base、refiner 以及配套的 VAE 模型,用于调节图片的画面效果和色彩。 需要注意的是,相同参数下要达到完全一致的出图效果并非绝对,还会受到多种因素的综合影响。
2024-10-14
AI 出图合成技巧
以下是一些 AI 出图合成的技巧: 方法 1(SD 出图 + AI 视频软件): 在 SD 的 controlnet 中上传原图,选择深度,通过文生图生成图片,然后将生成好的图放在 AI 视频工具中进行视频生成。相关网站:dreamina:https://dreamina.jianying.com/aitool/video/generate 方法 2(MJ 出图 + AI 视频软件): 使用 Midjourney 垫图加上描述出图,再去视频工具中转成视频。可在下载项里的深度图,打开 MJ 官网(https://www.midjourney.com/)上传深度图。局部重绘有一定难度,最终方式可以是分开画,比如先画个被关着的红衣服女孩,再画个二战德国士兵的背影,然后合成,拼在一起再交给 MJ。各种垫图局部重绘也能无中生有。
2024-09-12
SD和MJ出图的效果怎么样?
SD(Stable Diffusion)和 MJ(Midjourney)出图效果各有特点: 初步生成方面:DALLE 3 具有强大的文本识别能力,能快速生成符合意图的画面;MJ 则通过垫图功能(Sref 和iw 组合)确保图像风格一致。 图像优化方面:对于 DALLE 3 和 MJ 跑不出来的图,SD 可用于图像的细节处理,尤其是局部重绘,如调整人物手部细节。 角色原画设计方面:相较于 SD,MJ 能生成更多样、更具设计感的角色设计,不受制于特定模型风格。使用 Midjourney + Stable Diffusion 混合模式进行原画设计,有两到三次的 Prompt 调整空间,能运用 SD Controlnet 的各种功能对设计细节进行更多更细致的调节,可产出更合理的结构、更丰富的细节,效率极高,在合适条件下一个完整方案产出示例不超过十五分钟,还能极大避免 Midjourney 可能造成的版权争议和信息泄露风险。 模型表现方面:在 UI 设计的图标类型中,SDXL 的训练素材可能较久远,表现不如 MJ。Stability AI 称 SDXL 能识字,能还原文字内容,但字形和图像效果不如 MJ。您可以在使用 SDXL 的 API 构建内容。
2024-08-19
WaytoAGI和豆包有什么区别
WaytoAGI 和豆包有以下一些区别: 1. 性质和定位不同:WaytoAGI 是一个提供多种 AI 相关功能的网站,包括和 AI 知识库对话、集合精选的 AI 网站、提供 AI 提示词、呈现知识库精选等。而豆包是一个专注于为用户提供语言交互服务和知识解答的智能助手。 2. 运营模式不同:有人将 WaytoAGI 与李一舟进行对比,李一舟选择的是内容商业化,而 WaytoAGI 选择的是内容开源,体现了“坦诚、无私、热情、互助”的精神,这是理想主义和商业化的区别。 3. 服务方式不同:WaytoAGI 通过网站的各种功能模块为用户服务,而豆包主要通过语言交流为用户提供帮助。 需要注意的是,两者在服务用户、促进对 AI 的了解和应用方面都有各自的价值和作用。
2024-12-19
LLM 和 AI Agent的区别
LLM(大型语言模型)和 AI Agent(人工智能智能体)存在以下区别: LLM 主要侧重于语言的理解和生成,具有强大的语言处理能力。它们在大规模语料库上进行预训练,能够通过少量样本展现出泛化能力。然而,其缺点是计算资源消耗大,可能存在偏见和误解。 AI Agent 则为人工智能应用程序提供了全新的功能,包括解决复杂问题、对外界采取行动以及在部署后从经验中学习。它们通过高级推理/规划、工具使用、记忆/递归/自我反思的组合来实现这些功能。AI Agent 能够进行令人难以置信的演示,但目前大多数框架仍处于概念验证阶段,还不能可靠、可重现地完成任务。 基于 LLM 的 AI Agent 以 LLM 置于“大脑”或“控制器”的核心位置,赋予强大的语言理解和生成能力。为扩展感知和行动范围,采用多模态感知技术和工具利用策略,能理解和响应多种类型输入,并与环境有效互动。通过思维链和问题分解技术展现出推理和规划能力,还能从反馈中学习并执行新行动,表现出类似反应式 Agent 的特性。其已在软件开发、科学研究等现实场景中应用,能利用自然语言理解和生成能力与其他 Agent 交流协作。特点是基于大规模神经网络,特别是 Transformer 架构,技术上有 Llama、GPT 等预训练大型语言模型,优点是强大的语言理解、生成和对话能力,缺点是计算资源消耗大,可能存在偏见和误解。
2024-12-09
AGI、AI、AICG、AIGC,都有什么区别?
AGI(通用人工智能)是一种让机器具备像人类一样广泛的智能能力的目标。 AI(人工智能)是让机器展现智慧的一种目标。 GenAI(生成式人工智能)是让机器产生复杂有结构内容的一种目标。 AIGC(人工智能生成内容)是利用人工智能技术生成包括文本、图像、音频和视频等各种类型内容的新型生产方式。 AIGC、UGC(用户生成内容)和 PGC(专业生成内容)都是内容生成的不同方式,主要区别在于内容的创作者和生成方式。AIGC由人工智能生成,可快速大规模生成内容;UGC由用户生成,内容丰富多样反映用户真实想法和创意;PGC由专业人士或机构生成,内容质量高专业性强。 在应用方面,AIGC 技术可用于自动撰写新闻文章、生成艺术画作、创作音乐、制作视频游戏内容等。ChatGPT 是 AIGC 技术在文本生成领域的一个应用实例。
2024-12-08
AI与agi有什么区别?
AI(人工智能)分为 ANI(弱人工智能)和 AGI(通用人工智能)。 ANI 是指针对特定任务或范围较小的任务来设计和训练的 AI 系统,例如智能音箱、网站搜索、自动驾驶、工厂与农场的应用等。这些系统不是通用智能的,只擅长执行提前定义好的任务,但缺乏真正的理解和意识,是高度专业化的,不具备像人类一样的认知能力,也无法超出为它设定的小范围领域来解决一般问题。 AGI 则是指具有人类水平的智能和理解能力的 AI 系统,能够像人类一样思考、学习和执行多种任务,有能力完成任何人类可以完成的智力任务,适用于不同的领域,同时拥有某种形式的意识或自我意识。但目前 AGI 还只是一个理论概念,尚未有任何 AI 系统能达到这种通用智能水平。
2024-12-08
对企业来说直接用开源大模型和用国内大厂收费的大模型有哪些区别
对于企业来说,直接使用开源大模型和使用国内大厂收费的大模型主要有以下区别: 数据方面: 开源大模型的数据获取相对容易,但数据质量可能参差不齐。例如,OpenAI 训练大模型所用的中文数据虽源自中国互联网平台,但经过了深度处理,而国内中文互联网数据质量普遍被认为相对较低。 国内大厂收费的大模型可能在数据处理和质量上更具优势,但获取高质量数据对于企业尤其是初创企业来说成本较高且存在风险。 商业化落地方面: 客户在商业化落地时更关注实用性而非原创性,有时因成本低会倾向选择开源大模型的非原创技术。 但使用开源大模型可能存在拼装和套壳后强调原创,从而影响迭代能力,导致内耗、刷榜和作假等问题。 其他方面: 金沙江创投主管合伙人朱啸虎指出,使用大模型要有垂直行业数据,能实现数据闭环,并持续保持和客户的连接。对于大厂而言,要关心自身边界,而创业公司必须对客户和大厂有自身价值才能立足。 目前国内大模型的商业化落地仍处于拿着锤子找钉子的阶段,预计到今年年底头部大模型能基本达到 3.5 水平,明年 11 月有望到 4,但真正能落地的商业化场景有限。
2024-12-07