直达「 通往AGI之路 」飞书知识库 →
首页/问答列表/问答详情

Flux 的lora模型训练教程,我想用用diffuser代码训练,而不是webui或comfyui

回答

以下是关于 Flux 的 lora 模型训练的相关信息:

  • Flux GGUF 模型:https://huggingface.co/city96/FLUX.1-dev-gguf/tree/main
  • GGUF 配套节点插件:https://github.com/city96/ComfyUI-GGUF
  • 在最新版本的 ComfyUI 中,GGUF 的节点插件可在 Manager 管理器中搜到下载安装,但 NF4 的配套节点插件搜不到。
  • 注意使用精度优化的低配模型时,工作流和原版不同。把官方的 fp8 工作流中底模的节点换成 NF4 或者 GUFF 即可。
  • 相关生态发展迅速,有 Lora、Controlnet、IP-adpter 相关生态建设,字节最近发布的 Flux Hyper lora 可用于 8 步快速生图。下节将先讲讲 Flux 的 lora 训练。
内容由 AI 大模型生成,请仔细甄别(powered by aily)

参考资料

工具教程:Flux

Flux GGUF模型:https://huggingface.co/city96/FLUX.1-dev-gguf/tree/mainGGUF配套节点插件GGUF节点包:https://github.com/city96/ComfyUI-GGUF以下是使用GGUF生图:值得一提的是在最新版本的comfyUI中GGUF的节点插件是可以在Manager管理器中搜到下载安装的,NF4的配套节点插件则搜不到。注意使用精度优化的低配模型的话,工作流和原版是不一样的。此处没有专门列举。自己改的话就是把上面官方的这个fp8的工作流,只需把底模的节点换成NF4的或者GUFF的即可。相关生态发展很快,有Lora、Controlnet、IP-adpter相关生态建设非常速度,以及字节最近发布的Flux Hyper lora是为了8步快速生图。下节我们先讲讲Flux的lora训练。

其他人在问
你是Ai产品经理,我想使用训练一个智能体帮我改写新闻标题,请告诉我应该怎么做
训练一个智能体来改写新闻标题,您可以按照以下步骤进行: 1. 明确需求和目标:确定您希望智能体改写新闻标题的风格、重点和要求,例如更简洁、更吸引人、突出特定信息等。 2. 收集数据:收集大量的新闻标题样本,包括各种类型和主题的,以便智能体有足够的学习材料。 3. 选择合适的技术和框架:根据您的技术能力和需求,选择适合的人工智能框架和算法,例如自然语言处理相关的技术。 4. 数据预处理:对收集到的数据进行清洗、分词、标记等预处理操作,以便智能体能够更好地理解和学习。 5. 训练模型:使用预处理后的数据训练智能体,调整参数以优化训练效果。 6. 评估和优化:使用测试数据评估智能体的性能,根据评估结果对模型进行优化和改进。 7. 部署和应用:将训练好的智能体部署到实际应用中,并不断监测和改进其表现。 需要注意的是,训练智能体是一个复杂的过程,可能需要一定的技术知识和经验。
2024-12-19
怎么训练模型进行标题改写
训练模型进行标题改写可以参考以下方法: Sora 模型: 对于视频标题改写,首先训练一个能够为视频生成详细描述的视频标题生成器。可利用 CoCa 架构进行视频标题生成,如 VideoCoCa,通过取视频的多个帧并将每个帧输入到图像编码器,产生的帧令牌嵌入被展平并连接成一个长序列的视频表示,再由生成性池化器和对比性池化器处理,与对比损失和标题生成损失一起联合训练。构建视频标题生成器的其他替代方法包括 mPLUG2、GIT、FrozenBiLM 等。为确保用户提示与训练数据中的描述性标题格式一致,执行额外的提示扩展步骤,用 GPT4V 将用户输入扩展为详细的描述性提示。 对于语言指令跟随,通过开发一个能够生成长而详细标题的字幕器,然后用这些标题来训练模型。但收集用于训练此类字幕器的数据的过程未知,且可能需要大量劳动。 DALL·E 3 模型:通过用详细、描述性的标题重新标注现有图像来解决指令遵循问题。首先训练一个图像标题生成器,这是一个视觉语言模型,用于生成精确和描述性的图像标题。然后,使用标题生成器生成的描述性图像标题来微调文本到图像模型。具体来说,DALL·E 3 遵循对比标题生成器(CoCa)的方法,联合训练一个图像标题生成器,该生成器具有 CLIP 架构和一个语言模型目标。进一步在详细描述图像的主要对象、周围环境、背景、文本、风格和颜色方面进行微调后,图像标题生成器能够为图像生成详细的描述性标题。文本到图像模型的训练数据集是由图像标题生成器生成的重新标注数据集和真实人类编写的数据混合而成,通过上采样来解决实际用户提示与训练数据中的描述性图像描述之间的不匹配问题。 关于 Midjourney 的训练 prompt: The issue with DMs is that the powerful ones often consume hundreds of GPU days,and inference is quite expensive due to sequential evaluations.To enable DM training on limited computational resources without compromising their quality as well as flexibility,DMs are applied in the latent space of powerful pretrained autoencoders. Training a diffusion model on such a representation makes it possible to achieve an optimal point between complexity reduction and detail preservation,significantly improving visual fidelity.Introducing a cross attention layer to the model architecture turns the diffusion model into a powerful and flexible generator for generally conditioned inputs such as text and bounding boxes,enabling highresolution convolutionbased synthesis. Midjourney 会例行发布新的模型版本以提高效率、连贯性和质量。最新的模型是默认的,但可以使用 version 或 v 参数或通过 /settings 命令选择其他模型版本。不同的模型在不同类型的图像上表现出色。Midjourney V5 模型是最新和最先进的模型,于 2023 年 3 月 15 日发布。使用此模型,可在 prompt 末尾添加 v 5 参数,或使用 /settings 命令并选择 MJ Version 5。该模型具有很高的连贯性,擅长解释自然语言提示,分辨率更高,并支持诸如 tile 等高级功能。其新特点包括更广泛的风格范围、对提示更敏感、更高的图像质量、更详细的图像、细节更可能正确以及更少不需要的文本。
2024-12-19
怎么自己训练ai?
自己训练 AI 通常包括以下主要步骤: 1. 选择合适的部署方式: 本地环境部署。 云计算平台部署。 分布式部署。 模型压缩和量化。 公共云服务商部署。需根据自身的资源、安全和性能需求来选择。 2. 准备训练所需的数据和计算资源: 确保有足够覆盖目标应用场景的训练数据。 准备足够的计算资源,如 GPU 服务器或云计算资源。 3. 选择合适的预训练模型作为基础: 可以使用开源的预训练模型如 BERT、GPT 等。 也可以自行训练一个基础模型。 4. 针对目标任务进行模型微调训练: 根据具体应用场景对预训练模型进行微调训练。 优化模型结构和训练过程以提高性能。 5. 部署和调试模型: 将训练好的模型部署到生产环境。 对部署的模型进行在线调试和性能优化。 6. 注意安全性和隐私保护: 大模型涉及大量数据和隐私信息,要重视安全性和合规性。 总的来说,训练自己的 AI 需要综合考虑多方面因素,包括部署方式、数据准备、模型训练、部署调试以及安全性等。要根据具体需求选择合适的方法,并注意优化各个环节以提高模型性能和应用效果。 在独立游戏开发中,如《玩具帝国》的人机 AI 采用 Unity 的 mlagent 进行训练,有以下经验: 选择自己开发 AI 是因为游戏是离线模式且对决策实时性和本地 AI 运行性能有要求,无法使用线上接口。 通过“即时奖励”和“预测奖励”进行长周期决策 AI 的训练,数学模型可调,可改变 AI 的决策倾向。 为让每次输入的向量等长,对观察的内容进行处理。 先训练掌握基本规则的底模,再在此基础上做分支训练得到适用于不同文明策略的模型。 为避免过拟合,在每个 Episode 前对初始条件进行随机,决策时对 AI 的可选项进行随机 Dropout。 关于判断一张图片是否为 AI 生成,目前已有不少网站通过对大量图片数据的抓取和分析来给出画作属性的判断可能性,例如 ILLUMINARTY 网站。但在测试中存在一些问题,如结构严谨的真实摄影作品可能被误判为 AI 作图,这是因为鉴定 AI 自身的逻辑算法不能像人类一样综合考虑各种不符合逻辑的表现。
2024-12-16
哪么我需要怎么做才能训练它呢
要在 Comfy UI 中训练 LoRA 模型,您可以按照以下步骤进行: 1. 下载相关文件并解压放入 custom_nodes 文件夹中,然后安装所需的依赖项。 打开命令提示符,输入相应内容。 确保后面有一个空格,将 requirements_win.txt 文件(Windows 系统)或 requirements.txt 文件(其他系统)拖到命令提示符中,按 Enter 键安装依赖项。如果为 Comfy 使用了虚拟环境,需先激活。 2. 注意一些事项: 图像必须放在以命名的文件夹中,数字应较小,如 5,且下划线必须有。 对于 data_path,必须写入包含数据库文件夹的文件夹路径。 3. 参数设置: 在第一行,可从 checkpoint 文件夹中选择任何模型,但据说进行 LoRA 训练需选择一个基本模型。 4. 训练过程: 选择一个名字为您的 LoRA,如果默认值不好,可更改值(epochs 数应接近 40),然后启动工作流程。 点击 Queue Prompt 后,所有事情会在命令提示符中发生,可查看训练进度。 5. 注意事项: 建议与字幕自定义节点和 WD14 标签一起使用。 制作字幕时禁用 LoRA 训练节点,防止 Comfy 在制作字幕前启动训练。 目前训练会在 Comfy 的根文件夹中的 log 文件夹中创建日志文件,该日志可能可在 Tensorboard UI 中加载。 默认情况下,训练结果直接保存在 ComfyUI 的 lora 文件夹中,训练后只需刷新并选择 LoRA 就可以测试。
2024-12-15
国内有哪些gpu算力平台,支持快速搭建AI大模型预训练环境 和 微调环境
国内的 GPU 算力平台中,支持快速搭建 AI 大模型预训练环境和微调环境的有: 1. 阿里云:提供云计算资源,用户可根据需求租用算力服务。 2. 腾讯云:具备相应的算力支持,为用户提供灵活的选择。 3. 亚马逊 AWS:基础设施提供商建立的“算力集市”,可满足用户的算力需求。 在搭建环境时,通常需要考虑以下步骤: 1. 选择合适的部署方式,如本地环境部署、云计算平台部署、分布式部署、公共云服务商部署等,根据自身的资源、安全和性能需求进行选择。 2. 准备训练所需的数据和计算资源,确保有足够的训练数据覆盖目标应用场景,并准备足够的计算资源,如 GPU 服务器或云计算资源。 3. 选择合适的预训练模型作为基础,例如可以使用开源的预训练模型如 BERT、GPT 等,也可以自行训练一个基础模型。 4. 针对目标任务进行模型微调训练,根据具体应用场景对预训练模型进行微调训练,优化模型结构和训练过程以提高性能。 5. 部署和调试模型,将训练好的模型部署到生产环境,并对部署的模型进行在线调试和性能优化。 6. 注意安全性和隐私保护,大模型涉及大量数据和隐私信息,需要重视安全性和合规性。 此外,英伟达还发布了统一的超算平台 DGX B200,用于 AI 模型训练、微调和推理。它包括 8 个 Blackwell GPU 和 2 个第五代 Intel Xeon 处理器,包含 FP4 精度功能,提供高达 144 petaflops 的 AI 性能、1.4TB 的 GPU 内存和 64TB/s 的内存带宽。但模型训练能耗也是一个关键问题,例如由 8 张 A100 GPU 组成的 DGX 服务器,最大功率达到 6.5 千瓦,运行一小时就会消耗 6.5 度电,若有 1000 台这样的服务器同时运行,每天的电费将达到惊人的 20 万元。
2024-12-14
大模型的结构和训练方式
大模型的结构和训练方式如下: 整体架构: 基础层:为大模型提供硬件支撑和数据支持,例如 A100、数据服务器等。 数据层:包括静态的知识库和动态的三方数据集。 模型层:分为 LLm(大语言模型,如 GPT,一般使用 transformer 算法实现)和多模态模型(如文生图、图生图等模型,训练数据为图文或声音等多模态数据集)。 平台层:如大模型的评测体系或 langchain 平台等,提供模型与应用间的组成部分。 表现层:即应用层,是用户实际看到的地方。 训练方式: 收集海量数据:如研究人员会收集互联网上的文章、书籍、维基百科条目、社交媒体帖子等各种文本数据。 预处理数据:包括删除垃圾信息、纠正拼写错误、将文本分割成易于处理的片段等。 设计模型架构:通常是一个复杂的神经网络,如可能会使用 Transformer 架构。 训练模型:模型反复阅读数据,尝试预测句子中的下一个词,通过不断重复逐渐学会理解和生成人类语言。 此外,大模型的特点包括预训练数据量大(往往来自互联网,包括论文、代码、公开网页等,一般用 TB 级别的数据进行预训练)和参数多(如 Open 在 2020 年发布的 GPT3 就已达到 170B 的参数)。模型架构方面,有 encoderonly(适用于自然语言理解任务,代表模型是 BERT)、encoderdecoder(同时结合 Transformer 架构的 encoder 和 decoder 来理解和生成内容,代表是 google 的 T5)、decoderonly(更擅长自然语言生成任务,众多 AI 助手采用此结构)。
2024-12-13
comfyui入门
ComfyUI 是一个基于节点流程式的 stable diffusion AI 绘图工具 WebUI,可想象成集成了 stable diffusion 功能的 substance designer,将 stable diffusion 流程拆分成节点,实现更精准工作流定制和完善的可复现性。 其优势包括: 1. 对显存要求相对较低,启动和出图速度快。 2. 生成自由度更高。 3. 可以和 webui 共享环境和模型。 4. 能搭建自己的工作流程,可导出流程并分享,报错时能清晰发现错误所在。 5. 生成的图片拖进后会还原整个工作流程,模型也会选择好。 劣势有: 1. 操作门槛高,需要有清晰逻辑。 2. 生态没有 webui 多(但常用的都有),也有一些针对 Comfyui 开发的有趣插件。 官方链接:从 github 上下载作者部署好环境和依赖的整合包,按照官方文档安装即可:https://github.com/comfyanonymous/ComfyUI 。 相关学习资料: 1. ComfyUI 官方文档:提供使用手册和安装指南,适合初学者和有经验用户,网站:https://www.comfyuidoc.com/zh/ 。 2. 优设网:有详细的入门教程,适合初学者,地址:https://www.uisdc.com/comfyui3 。 3. 知乎:有用户分享部署教程和使用说明,适合有一定基础并希望进一步了解的用户,地址:https://zhuanlan.zhihu.com/p/662041596 。 4. Bilibili:有一系列涵盖从新手入门到精通各个阶段的视频教程,地址:https://www.bilibili.com/video/BV14r4y1d7r8/ 。 ComfyUI 共学 WaytoAGI 共学计划中的高频问题及自学资料: 1. 知识库跳转,展开菜单。 2. 。 3. 【海辛】因为一直被几个好朋友问 comfyui 怎么入门,给朋友录了几节 comfyui 基础课,顺手分享给大家~看完这 5 节应该就基本入门啦,然后可以看互联网上任何的进阶教程了。 安装部署: 界面介绍: 文生图、图生图: ComfyUI 中使用 ControlNet: ComfyUI 中不同放大图像方式:
2024-12-18
comfyui工作流
ComfyUI 工作流包括以下内容: 低显存运行工作流:目的是让 FLUX 模型能在较低显存情况下运行。分阶段处理思路为,先在较低分辨率下使用 Flux 模型进行初始生成,然后采用两阶段处理,即先用 Flux 生成,后用 SDXL 放大,有效控制显存使用,最后使用 SD 放大提升图片质量。工作流流程包括初始图像生成(Flux)阶段,如加载相关模型、处理输入提示词、生成初始噪声和引导等,以及图像放大和细化(SDXL)阶段,如加载 SDXL 模型、对初始图像进行锐化处理等,并进行最终图像预览。 工作流网站: “老牌”workflow 网站 Openart.ai:https://openart.ai/workflows/,流量较高,支持上传、下载、在线生成,免费账户有 50 个积分,加入 Discord 可再加 100 积分,开通最低每月 6 美元套餐后每月有 5000 积分。 ComfyWorkflows 网站:https://comfyworkflows.com/cloud,支持在线运行工作流,实际下载量和访问量略少于 openart。 Flowt.ai:https://flowt.ai/community 提示词自动生成 ComfyUI 工作流:英伟达整了个花活,通过画图提示词自动生成匹配的 ComfyUI 工作流,命名为 ComfyGen(comfy 生成器),目前仅支持文生图模型。英伟达称其可以生成高质量的图并泛化到其他领域,效果基本与其他模型一致甚至更优,但项目未开源。
2024-12-17
有没有根据布料照片和模特照片生成衣服上身效果的工具或 comfyUI 工作流
以下是一些与根据布料照片和模特照片生成衣服上身效果相关的工具和工作流: 1. 藏师傅的方法:将第二步的提示词和 Logo 图片放到 Comfyui 工作流就行。Lora 需要用到 InContext LoRA 中的 visualidentitydesign,可从以下地址下载:https://huggingface.co/alivilab/InContextLoRA/tree/main 。工作流下载:https://github.com/op7418/Comfyuiworkflow/blob/main/FLUX/Logo%20%E5%91%A8%E8%BE%B9%E7%94%9F%E6%88%90.json 。 2. 彭青云分享的内容:本地部署 Comfyui 有多种方式,如官方的本地部署包、秋叶整合包和二狗子老师制作的通往 AGI 之路黑猴子流专属包。处理好软件和模型后,打开一键启动,稍等片刻就会进入工作界面。通过正反提示词、文本链接图像,点击右侧队列即可生成图像。 3. ComfyUI BrushNet:原项目 https://tencentarc.github.io/BrushNet/ ,插件地址 https://github.com/kijai/ComfyUIBrushNetWrapper ,模型下载 https://huggingface.co/Kijai/BrushNetfp16/tree/main 。第一次运行会自动下载需要的模型,如果是用的 ComfyUIBrushNetWrapper 节点,模型将自动从此处下载:https://huggingface.co/Kijai/BrushNetfp16/tree/main 到 ComfyUI/models/brushnet,也可手动下载放在这个文件夹里面。另外,BrushNet 提供了三个模型,个人测试下来,random 这个效果比较好。工作流方面,可配合 mj 出底图,在底图不变的基础上,添加文字或者图片内容。还可以使用 GDinoSAm(GroundingDino+Sam),检测和分割底图上的内容,做针对性的修改。
2024-12-13
我想学习comfyui
以下是关于 ComfyUI 的相关学习信息: 学习资料: ComfyUI 官方文档:提供使用手册和安装指南,适合初学者和有经验的用户。网站:https://www.comfyuidoc.com/zh/ 优设网:有详细的入门教程,适合初学者,介绍了特点、安装方法及生成图像等内容。教程地址:https://www.uisdc.com/comfyui3 知乎:有用户分享部署教程和使用说明,适合有一定基础并希望进一步了解的用户。地址:https://zhuanlan.zhihu.com/p/662041596 Bilibili:有一系列涵盖从新手入门到精通阶段的视频教程。地址:https://www.bilibili.com/video/BV14r4y1d7r8/ 自动生成抠图素材: 作者学习使用 ComfyUI 的原因包括更接近 SD 的底层工作原理、自动化工作流、作为强大的可视化后端工具可实现 SD 之外的功能、可根据定制需求开发节点或模块等。 作者的工作室常需要抠图素材,传统途径存在问题,近期在 github 上看到相关项目创建了工作流,可自动生成定制需求的抠图素材,全程只需几秒。 简介: ComfyUI 是基于节点流程式的 stable diffusion AI 绘图工具 WebUI,可想象成集成了 stable diffusion 功能的 substance designer,通过拆分流程为节点实现精准工作流定制和完善的可复现性。 优势:对显存要求相对较低,启动和出图速度快;生成自由度高;可和 webui 共享环境和模型;能搭建工作流程,导出并分享,报错时能清晰发现错误所在;生成的图片拖进后会还原工作流程并选好模型。 劣势:操作门槛高,需要清晰逻辑;生态没有 webui 多,但有针对 Comfyui 开发的有趣插件。 官方链接:从 github 下载作者部署好环境和依赖的整合包,按照官方文档安装。https://github.com/comfyanonymous/ComfyUI 请注意,以上内容由 AI 大模型生成,请仔细甄别。
2024-12-12
有什么 comfyui 的第三方 api 服务
ComfyUI 是一个开源的用于生成 AI 图像的图形用户界面,主要基于 Stable Diffusion 等扩散模型。以下是关于 ComfyUI 的一些详细信息: 生图原理: 1. 在去噪过程中,模型使用编码后的文本向量来引导图像生成,以确保生成的图像与输入的文本描述相符。 2. 提供了多种采样算法(如 Euler、DDIM、DPM++等)来控制去噪过程,不同采样器可能产生不同结果或影响生成速度。 3. VAE 由编码器和解码器组成。编码器输入图像并输出表示其特征的概率分布,解码器将概率分布映射回图像空间。 4. 最终生成的图像显示在界面上,用户可保存、编辑或用于其他目的。 5. 支持多种高级功能,如图像到图像、Lora、ControlNet、ipadapter、放大和后处理等。 节点认识: 1. 核心是节点式界面,用户可通过拖放和连接各种节点创建自定义图像生成工作流。 2. 节点类型包括输入节点(如文本提示节点、图像输入节点、噪声节点)、处理节点(如采样器节点、调度器节点、CFG Scale 节点、步数节点)、输出节点(如图像输出节点)、辅助节点(如批处理节点、图像变换节点、图像融合节点)。 3. 用户可通过拖动节点间的连接线构建工作流,连接线代表数据流动。 4. 除内置节点,用户还可创建自定义节点扩展功能,自定义节点安装目录为 D:\\ComfyUI\\custom_nodes。 5. 提供丰富的节点管理功能,包括保存/加载节点图、复制/粘贴节点、批量编辑等。 其他原理: 1. 涉及 Pixel Space(像素空间)和 Latent Space(潜在空间),输入图像的像素空间对应于可能通过“图像输入”模块或直接从文本提示生成的随机噪声图像,许多操作在潜在空间中进行。 2. 扩散过程表示从噪声生成图像的过程,通过调度器控制,可选择不同调度器控制在潜在空间中处理噪声及逐步去噪回归到最终图像,生成图像时会进行多个去噪步,可通过控制步数影响图像生成的精细度和质量。
2024-12-10
COMFYui安装包
以下是关于 COMFYui 安装包的相关信息: 1. 安装地址: https://github.com/comfyanonymous/ComfyUI 可以下载安装包也可以直接 Git clone https://github.com/comfyanonymous/ComfyUI.git 或者下载安装包。 安装包文件:ComfyUI.zip 、 2. 安装步骤: 下载安装包并解压至本地除 C 盘外的任意盘。 找到文件名称为 run_nvidia_gpu 的文件双击并启动,启动完成即进入基础界面。 3. 相关环境安装(安装过 WebUI 的同学请忽略): 依次下载并安装 python(版本 3.10 以上)、VSCode、Git,安装过程中一直点击勾选对应选项,一直下一步。 安装 Python: 安装 VSCode: 安装 Git: 4. 节点存放目录:comfyUI 的节点包括后面安装的拓展节点都存放在本目录下:D:\\COMFYUI\\ComfyUI_windows_portable\\ComfyUI\\custom_nodes 5. 模型存放目录: 大模型:D:\\COMFYUI\\ComfyUI_windows_portable\\ComfyUI\\models\\checkpoints Lora:D:\\COMFYUI\\ComfyUI_windows_portable\\ComfyUI\\models\\loras Vae:D:\\COMFYUI\\ComfyUI_windows_portable\\ComfyUI\\models\\vae 6. 模型共用:已经安装了 SDWebUI 的同学可以通过修改文件路径和 WebUI 共用一套模型即可,这样就不用重复下载模型了。找到已安装好的 ComfyUI 目录文件下的 extra_model_paths.yaml.example 文件,将后缀.example 删除,然后右键用记事本打开。 目前安装 ComfyUI 的方法有在本地安装和在云端安装两种,本部分主要介绍本地安装方法,包括命令行安装和安装包安装。命令行安装普适性最强但有一定门槛,ComfyUI 的源码地址在 https://github.com/comfyanonymous/ComfyUI ,安装方法写在了 Readme 中。安装包安装比较简单,下载就能用。ComfyUI 的官方安装包下载地址是 https://github.com/comfyanonymous/ComfyUI/releases ,目前仅支持 Windows 系统,且显卡必须是 Nivida。
2024-12-05
lora文件后缀
LORA 文件的后缀通常有.pt、.safetensors、.ckpt 等。LORA 是一种除主模型外常用的微调模型,常用于控制画风、人物、姿势等,其文件体量通常有几十上百兆,一般在 4M 300M 之间。下载的 LORA 放在根目录的【……\\models\\Lora】文件夹下,使用时点击红色小书,找到 LORA 的选项卡加载,可能还需要加入特定触发词。此外,safetensors 是一种由 huggingface 研发的开源模型格式,具有安全、加载迅速、支持懒加载、通用性强等优势,现在大部分开源模型都会提供这种格式。LoRA 和 LyCORIS 的后缀均为.safetensors。Textual Inversion 后缀为.pt 或者.safetensors,体积很小,一般只有几 kb,所在目录在 WebUI 中的 embeddings 目录下。当无法通过后缀名区分文件类型时,可以去到秋叶大佬整理的网站 https://spell.novelai.dev/,把文件拖进去查看类型。
2024-12-20
flux和lora分别是什么意思
Flux 是一种在图像转换和处理方面具有特定功能的工具。它具有多种功能,如使用 FLUX.1 Canny / Depth 进行结构调节,通过边缘或深度检测来在图像转换过程中保持精确控制;使用 FLUX.1 Redux 进行图像变化和重新设计,给定输入图像可以重现具有轻微变化的图像。 Lora 是一种低阶自适应模型,可以理解为基础模型(如 Checkpoint)的小插件。在生图时可有可无,但对于控制面部、材质、物品等细节有明显价值,旁边的数值是其权重。
2024-11-25
flux lora 训练
以下是关于 Flux 的 Lora 模型训练的详细步骤: 准备工作: 下载所需模型:t5xxl_fp16.safetensors、clip_l.safetensors、ae.safetensors、flux1dev.safetensors。 注意:不使用时模型放置位置不限,只要知道“路径”,后续会引用到“路径”。 训练建议使用 flux1dev.safetensors 版本的模型和 t5xxl_fp16.safetensors 版本的编码器。 下载训练脚本: 夸克网盘链接:https://pan.quark.cn/s/ddf85bb2ac59 百度网盘链接:https://pan.baidu.com/s/1pBHPYpQxgTCcbsKYgBi_MQ?pwd=pfsq 提取码:pfsq 数据集准备: 进入厚德云模型训练数据集:https://portal.houdeyun.cn/sd/dataset 步骤一:创建数据集 在数据集一栏中,点击右上角创建数据集。 输入数据集名称。 可以上传包含图片+标签 txt 的 zip 文件,也可以上传只有图片的文件(之后可在 c 站使用自动打标功能),或者一张一张单独上传照片,但建议提前将图片和标签打包成 zip 上传。 Zip 文件里图片名称与标签文件应当匹配,例如:图片名“1.png”,对应的达标文件就叫“1.txt”。 上传 zip 以后等待一段时间,确认创建数据集,返回到上一个页面,等待一段时间后上传成功,可点击详情检查,预览数据集的图片以及对应的标签。 步骤二:Lora 训练 点击 Flux,基础模型会默认是 FLUX 1.0D 版本。 选择数据集,点击右侧箭头,会跳出所有上传过的数据集。 触发词可有可无,取决于数据集是否有触发词。 模型效果预览提示词则随机抽取一个数据集中的标签填入即可。 训练参数可以调节重复次数与训练轮数,厚德云会自动计算训练步数。如果不知道如何设置,可以默认 20 重复次数和 10 轮训练轮数。 可以按需求选择是否加速,点击开始训练,会显示所需要消耗的算力。 等待训练,会显示预览时间和进度条,训练完成会显示每一轮的预览图。 鼠标悬浮到想要的轮次模型,中间会有个生图,点击会自动跳转到使用此 lora 生图的界面。点击下方的下载按钮则会自动下载到本地。 数据集放置位置:.Flux_train_20.4\\train\\qinglong\\train 运行训练:约 1 2 小时即可训练完成。 验证和 lora 跑图:有 ComfyUI 基础的话,直接原版工作流的模型后面,多加一个 LoraloaderModelOnly 的节点就可以,自行选择您的 Lora 和调节参数。
2024-11-20
lora是什么
Lora 全称 LowRank Adaptation Models,即低阶自适应模型。它的作用在于影响和微调画面,能够再现人物或物品的特征。大模型的训练通常复杂且对电脑配置要求高,而 LoRA 采用在原模型中插入新的数据处理层的方式,避免了修改原有模型参数。LORA 模型训练是用特定特征替换大模型中的对应元素,从而生成不同于底模的图片。Lora 训练较为轻量化,所需显存较少,硬件门槛显存达到 6G 即可开启训练。例如,有利用新版 SDXL 生成的如针线娃娃的 lora,还有如“KIDS ILLUSTRATION”这样用于生成儿童绘本风格插画的 lora 等。
2024-11-01
Lora模型训练数据集
以下是关于 Lora 模型训练数据集的相关内容: 创建数据集: 1. 进入厚德云模型训练数据集(https://portal.houdeyun.cn/sd/dataset)。 2. 在数据集一栏中,点击右上角创建数据集,输入数据集名称。 3. 可以上传包含图片+标签 txt 的 zip 文件,也可以只有图片(之后可在 c 站使用自动打标功能),还可以一张一张单独上传照片,但建议提前把图片和标签打包成 zip 上传。 4. Zip 文件里图片名称与标签文件应当匹配,例如:图片名“1.png”,对应的达标文件就叫“1.txt”。 5. 上传 zip 以后等待一段时间,确认创建数据集。返回到上一个页面,等待一段时间后上传成功,可以点击详情检查,能预览到数据集的图片以及对应的标签。 Lora 训练: 1. 点击 Flux,基础模型会默认是 FLUX 1.0D 版本。 2. 选择数据集,点击右侧箭头,会跳出所有上传过的数据集。 3. 触发词可有可无,取决于数据集是否有触发词。模型效果预览提示词则随机抽取一个数据集中的标签填入即可。 4. 训练参数这里可以调节重复次数与训练轮数,厚德云会自动计算训练步数。如果不知道如何设置,可以默认 20 重复次数和 10 轮训练轮数。 5. 可以按需求选择是否加速,点击开始训练,会显示所需要消耗的算力。然后等待训练,会显示预览时间和进度条。训练完成会显示每一轮的预览图。鼠标悬浮到想要的轮次模型,中间会有个生图,点击会自动跳转到使用此 lora 生图的界面。点击下方的下载按钮则会自动下载到本地。 用 SD 训练一套贴纸 LoRA 模型的工作流: 1. 原始形象:MJ 初步产出符合设计想法的贴纸原始形象。 2. 二次加工:完成贴纸的白色边线等细节加工。 3. 处理素材:给训练集图片打 tag,修改 tag。 4. 训练模型:将上述处理好的数据集做成训练集,进行训练。 用 SD 训练一套贴纸 LoRA 模型的原始形象:MJ 关键词: A drawing for a rabbit stickers,in the style of hallyu,screenshot,mori kei,duckcore plush doll art exaggerated poses,cry/happy/sad/...ar 3:4 niji 5 style cute s 180 。会得到不同风格的贴图,我们可以先看看自己喜欢哪一种。出图过程可以有意识地总结这一类贴图的特征,比如都是可爱的兔子,有不同的衣服和头饰,都有一双大大的卡通眼睛,会有不同的面部表情。 注意事项: 1. 关键词中限制了颜色,因此 MJ 生成的图片会一种情绪对应一种颜色,所以同一种情绪最好多生成几张不同色系的,可以减少后续训练中模型把情绪和颜色做挂钩(如果需要这样的话,也可以反其道而行之)。 2. 数据集中正面情绪与负面情绪最好比例差不多,如果都是正面积极的,在出一些负面情时(sad,cry)的时候,可能会出现奇怪的问题(如我们训练的是兔子形象,但 ai 认知的 sad 可能是人的形象,可能会出现人物特征)。 3. 如果训练 256266 大小的表情包,这样的素材就已经够用了。如果要训练更高像素的图片,则需要进一步使用 MJ 垫图和高清扩展功能。 高清化: 左(256)→右(1024),输入左图,加入内容描述,加入风格描述,挑选合适的,选出新 30 张图片(卡通二次元类型的 lora 训练集 30 张差不多,真人 60100 张)。
2024-10-22
Lora模型训练
以下是关于 Lora 模型训练的相关内容: 一、用 SD 训练一套贴纸 LoRA 模型的要点 1. 训练数据集准备:包括训练素材处理、图像预处理、打标优化。 2. 训练环境参数配置:选择本地或云端训练环境,进行训练环境配置和训练参数配置。 3. 模型训练:基于 kohyass 训练模型。 4. 模型测试:通过 XYZ plot 测试模型。 二、郑敏轩:Flux 的 Lora 模型训练 1. 所需模型下载:t5xxl_fp16.safetensors、clip_l.safetensors、ae.safetensors、flux1dev.safetensors。 注意事项: 不使用时,模型放置位置不限,只要知道路径即可。 训练时,建议使用 flux1dev.safetensors 版本的模型和 t5xxl_fp16.safetensors 版本的编码器。 2. 下载脚本: 夸克网盘链接:https://pan.quark.cn/s/ddf85bb2ac59 百度网盘链接:https://pan.baidu.com/s/1pBHPYpQxgTCcbsKYgBi_MQ?pwd=pfsq 提取码:pfsq 三、100 基础训练大模型 1. 步骤一·创建数据集 进入厚德云模型训练数据集:https://portal.houdeyun.cn/sd/dataset 在数据集一栏中,点击右上角创建数据集,输入数据集名称。 可以上传包含图片+标签 txt 的 zip 文件,也可以只有图片(之后可在 c 站使用自动打标功能),或者一张一张单独上传照片。 Zip 文件里图片名称与标签文件应当匹配,例如:图片名"1.png",对应的达标文件就叫"1.txt"。 上传 zip 以后等待一段时间,确认创建数据集,返回到上一个页面,等待一段时间后上传成功,可点击详情检查,预览数据集的图片以及对应的标签。 2. 步骤二·Lora 训练 点击 Flux,基础模型会默认是 FLUX 1.0D 版本。 选择数据集,点击右侧箭头,选择上传过的数据集。 触发词可有可无,取决于数据集是否有触发词。 模型效果预览提示词则随机抽取一个数据集中的标签填入即可。 训练参数可调节重复次数与训练轮数,厚德云会自动计算训练步数,若不知如何设置,可默认 20 重复次数和 10 轮训练轮数。 可按需求选择是否加速,点击开始训练,会显示所需要消耗的算力,然后等待训练,会显示预览时间和进度条。 训练完成后会显示每一轮的预览图,鼠标悬浮到想要的轮次模型,中间会有个生图,点击会自动跳转到使用此 lora 生图的界面。点击下方的下载按钮则会自动下载到本地。
2024-10-22
flux和sdXL出图的区别
Flux 和 SDXL 出图主要有以下区别: 1. 生成人物外观:Flux 存在女生脸油光满面、下巴等相同外观问题,而 SDXL 相对在这方面有改进。 2. 模型构成:SDXL 由 base 基础模型和 refiner 优化模型两个模型构成,能更有针对性地优化出图质量;Flux 中 Dev/Schnell 是从专业版中提取出来,导致多样性丧失。 3. 处理方式:在低显存运行时,可采用先使用 Flux 模型进行初始生成,再用 SDXL 放大的分阶段处理方式,有效控制显存使用。 4. 模型参数和分辨率:SDXL 的 base 模型参数数量为 35 亿,refiner 模型参数数量为 66 亿,总容量达 13G 之多,基于 10241024 的图片进行训练,可直接生成 1000 分辨率以上的图片,拥有更清晰的图像和更丰富的细节;而 Flux 在这方面相对较弱。
2024-12-20
flux和sd3.5出图的区别
Flux 和 SD3.5 出图存在以下区别: 1. 模型性质:Flux.1 有多种版本,如开源不可商用的 FLUX.1等。而 SD3.5 未提及相关性质。 2. 训练参数:Flux.1 的训练参数高达 120 亿,远超 SD3 Medium 的 20 亿。 3. 图像质量和提示词遵循能力:Flux.1 在图像质量、提示词跟随、尺寸适应、排版和输出多样性等方面超越了一些流行模型,如 Midjourney v6.0、DALL·E 3和 SD3Ultra 等。 4. 应用场景:Flux.1 可以在 Replicate 或 fal.ai 等平台上试用,支持在 Replicate、fal.ai 和 Comfy UI 等平台上使用,并且支持用户根据自己的数据集进行微调以生成特定风格或主题的图像。而 SD3.5 未提及相关应用场景。 5. 本地运行:文中尝试了在没有 N 卡,不使用复杂工作流搭建工具的 Mac Mini M1 上运行 FLUX.1,以及在边缘设备 Raspberry PI5B 上运行的情况,未提及 SD3.5 的相关内容。 6. 模型安装部署:对于 Flux.1,不同版本的模型下载后放置的位置不同,如 FLUX.1应放在 ComfyUI/models/unet/文件夹中。而 SD3.5 未提及相关安装部署内容。 7. 显存处理:对于 Flux.1,如果爆显存,“UNET 加载器”节点中的 weight_dtype 可以控制模型中权重使用的数据类型,设置为 fp8 可降低显存使用量,但可能会稍微降低质量。而 SD3.5 未提及相关显存处理内容。 8. 提示词使用:在训练 Flux 时,应尽量使用长提示词或自然语言,避免使用短提示词,因为 T5 自带 50%的删标。而 SD3.5 未提及相关提示词使用内容。
2024-12-20
flux1-depth-dev模型存放路径
flux1depthdev 模型的存放路径如下: 1. 下载 flux1depthdev 模型放到 ComfyUI/models/diffusion_models/文件夹中。 夸克网盘:链接:https://pan.quark.cn/s/571d174ec17f 百度网盘:见前文 2. depth lora 模型:https://huggingface.co/blackforestlabs/FLUX.1Depthdevlora ,放到:comfyUI\\models\\loras 。 3. 百度网盘分享的 flux1depthdevlora.safetensors : 链接:https://pan.baidu.com/s/10BmYtY3sU1VQzwUy2gpNlw?pwd=qflr 提取码:qflr
2024-12-17
flux模型为什么总是生成动漫风格
Flux 模型生成动漫风格可能有以下原因: 1. 开源社区的发展:FLUX 发布后,其周边生态发展迅速,有多种相关模型和训练脚本被开发,包括动漫 Lora 等,这为生成动漫风格提供了支持。 2. 优秀的图片质量和美学调教风格:FLUX 具有优秀的图片质量和偏向真实的美学调教风格,这使得它能够适应多种风格的生成,包括动漫风格。 3. 提示词和参数设置:在使用 Flux 模型时,输入的提示词和设置的参数可能会引导模型生成动漫风格的图像。 同时,关于模型的更多信息,您可以参考以下链接获取: 1. 褪色胶片风格 Flux Lora 模型下载:https://www.liblib.art/modelinfo/4510bb8cd80142168dc42103d7c20f82?from=personal_page 2. Xlabs 发布的基于 FLUX 的 Controlnet 模型和 Lora 模型的训练脚本:https://github.com/XLabsAI/xflux 3. Xlabs 的多个 Lora 下载:https://huggingface.co/XLabsAI/fluxRealismLora 4. InstantX 训练的 Canny 模型:https://huggingface.co/InstantX/FLUX.1devControlnetCannyalpha
2024-12-15
flux怎么提升生图速度需要哪些依赖
要提升 Flux 的生图速度,以下是一些相关的依赖和要点: 1. 条件引导:在去噪过程中,模型使用编码后的文本向量来引导图像生成,确保生成的图像与输入的文本描述相符。 2. 采样器:ComfyUI 提供了多种采样算法(如 Euler、DDIM、DPM++等)来控制去噪过程,不同的采样器可能会影响生成速度和结果。 3. Vae 编码:VAE 由编码器和解码器组成。编码器输入图像并输出表示其特征的概率分布,解码器将概率分布映射回图像空间。 4. 结果输出:ComfyUI 最终将生成的图像显示在界面上,用户可进行保存、编辑或用于其他目的。 5. 额外控制:ComfyUI 支持多种高级功能,如图像到图像、Lora、ControlNet、ipadapter 等。 6. 低配置方案:对于显存不够 16G 的情况,开源社区有优化方案。如 NF4 来自 controlnet 的作者,GGUF 包含多个版本。NF4 模型可从 https://huggingface.co/lllyasviel/flux1devbnbnf4/blob/main/flux1devbnbnf4.safetensors 下载,放置在 ComfyUI/models/checkpoint/中,其配套节点插件可通过 git clone https://github.com/comfyanonymous/ComfyUI_bitsandbytes_NF4.git 获取。GGUF 模型可从 https://huggingface.co/city96/FLUX.1devgguf/tree/main 下载,配套节点插件为 https://github.com/city96/ComfyUIGGUF 。在最新版本的 ComfyUI 中,GGUF 的节点插件可在 Manager 管理器中搜到下载安装,NF4 的配套节点插件则搜不到。使用精度优化的低配模型时,工作流和原版不同。相关生态发展迅速,有 Lora、Controlnet、IPadpter 等,字节最近发布的 Flux Hyper lora 可实现 8 步快速生图。
2024-12-09
FLUX stable diffusion
以下是关于 FLUX stable diffusion 的相关信息: ComfyUI 的生图原理:ComfyUI 使用预训练的扩散模型作为核心,包括 FLUX 等模型。在节点化界面中,用户可通过不同模块控制潜在空间操作、UNet 中的推理步骤及条件输入。 稳定扩散的运作:稳定扩散通过逐步去除图像中的噪点来生成艺术作品,它了解世界和书面语言以指导噪点消除过程。 Flux 工具: 制作团队:原 stable diffusion 核心团队因开源理念不合,成立“黑森林”团队,推出 Flux。 型号:首次发布三种型号,包括 Flux pro(闭源使用)、Flux dev(开源,供学习研究,不支持商用)、Flux schnell(开源,开源最彻底,支持商用)。 参数量:参数训练量达 12B,语言支持自然语言。相比之下,SD3 Large 训练参数 8B,SD3 Medium 训练参数 2B。 硬件要求:推理 dev 版本的 Flux 模型时,最低显存需要 16G,建议 24G,模型本身大小约 22G。训练时,优化后 16G 可训练 Lora 模型,DB 方式训练微调模型除显存最低 24G 外,内存需 32G 以上。
2024-11-29