Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

comfy ui 九宫格生图保持人物一致性的原理

Answer

Comfy UI 九宫格生图保持人物一致性的原理主要基于 PuLID 技术,具体如下:

  • PuLID 是一种用于在文本生成图像时自定义图像中人物或物体身份(ID)的新技术,它结合了两个不同的模型分支(Lightning T2I 分支和标准扩散模型),引入了两种损失(对比对齐损失和精确 ID 损失)。
    • Lightning T2I 分支是一个快速、高效的文本到图像生成模型。
    • 标准扩散模型是常见的、生成高质量图像的模型。
    • 对比对齐损失帮助模型学习将输入的文本和生成的图像内容对齐,使生成的图像更符合文本描述。
    • 精确 ID 损失确保生成的图像中的特定身份特征(比如人物的脸部特征)与目标 ID 一致。
  • 此外,在保持人物一致性方面,还有一些操作步骤:
    • 生成图像(提示词加入分割描述,让一张图生成多张同空间小图)。
    • 通过目标图像不断的重复生成,获取更多一致性的角色图像,下载分类(按照视角不同分类)。
    • 上传图像,调用 prefer option set 命令,先写命令名称(一个视角操作一次),再放入该视角的照片(4 - 5 张)。
    • 放开角色限制生成图像,在确认好的图像上进行局部重绘,框选头部,在原来的命令下加入—快捷命令名称,确认生成即可。

同时,Eva - CLIP 也是相关的技术:

  • Eva - CLIP 是一种基于对比学习的视觉文本模型,将文本描述和图像内容映射到一个共享的嵌入空间。
    • 对比学习架构:使用对比学习方法,将图像和文本嵌入到一个共享的空间,通过最大化匹配图像和文本对的相似度,同时最小化不匹配对的相似度,学习到图像和文本之间的关联。
    • 强大的特征提取能力:编码器擅长提取图像中的细节特征,并将其转换为有意义的嵌入向量,用于下游任务。
    • 多模态应用:能够处理图像和文本两种模态,广泛应用于多模态任务中,如生成、检索、标注等。

其应用场景包括图像生成、图像检索、图像标注等。Eva - CLIP 编码器通常与深度神经网络结合使用,如卷积神经网络(CNN)用于图像特征提取,Transformer 网络用于处理文本描述。

项目地址:https://github.com/ToTheBeginning/PuLID 相关资源:

  • instant ID 脸部特征抓取得比 pulid 好,放在最后一步重绘,先 pulid,再 instantID
    • https://pan.baidu.com/s/1Tro9oQM85BEH7IQ8gVXKsg?pwd=cycy
    • 工作流与模型地址:https://pan.quark.cn/s/2a4cd9bb3a6b
    • 说明文档:https://xiaobot.net/post/6544b1e8 - 1d90 - 4373 - 94cf - 0249d14c73c8
    • 测试案例:1567_1710206655.mp4
Content generated by AI large model, please carefully verify (powered by aily)

References

Comfyui PuLID人物一致

PuLID是一种新的技术,用于在文本生成图像时自定义图像中的人物或物体的身份(ID),不需要进行复杂的调整。它结合了两个不同的模型分支(Lightning T2I分支和标准扩散模型),引入了两种损失(对比对齐损失和精确ID损失),以确保在保持原始模型效果的同时,高精度地自定义ID。简单来说,PuLID可以让你在生成图像时更精确地定制人物或物体的身份,将特定ID(例如人脸)嵌入到预训练的文本到图像模型中,而不会破坏模型的原始能力。这允许生成特定人物的图像,同时仍然能够使用文本提示修改属性、样式、背景等1.模型分支:Lightning T2I分支:这是一个快速、高效的文本到图像生成模型。标准扩散模型:这是一个常见的、生成高质量图像的模型。PuLID把这两个模型结合起来,利用它们各自的优势。1.两种损失:对比对齐损失:这个损失帮助模型学习将输入的文本和生成的图像内容对齐,使生成的图像更符合文本描述。精确ID损失:这个损失确保生成的图像中的特定身份特征(比如人物的脸部特征)与目标ID一致。通过结合这两个模型分支和引入这两种损失,PuLID可以在生成图像时更准确地自定义身份,并且生成的图像在插入ID前后保持一致性。项目地址https://github.com/ToTheBeginning/PuLIDinstant ID脸部特征抓取得比pulid好,放在最后一步重绘,先pulid,再instantIDhttps://pan.baidu.com/s/1Tro9oQM85BEH7IQ8gVXKsg?pwd=cycy工作流与模型地址https://pan.quark.cn/s/2a4cd9bb3a6b说明文档https://xiaobot.net/post/6544b1e8-1d90-4373-94cf-0249d14c73c8

左侧原图,右侧是生成的图片A girl,happy,urban,realistic--cref[url]--cw 100--style raw[heading2]作者:张余[content]发布此功能前的保持一致性教程YouTube大神TAO最新的教程,原理也很简单,就是把已经确定好的角色生成一个固定成一个快捷命令,每一个角度一个快捷命令,再通过vray重绘调用命令重回人物头部。1.生成图像(提示词加入分割描述,让一张图生成多张同空间小图)2.通过目标图像不断的重复生成,获取更多一致性的角色图像,下载分类(按照视角不同分类)。3.上传图像,调用prefer option set命令,先写命令名称(一个视角操作一次),再放入该视角的照片(4-5张)。4.放开角色限制生成图像,在确认好的图像上进行局部重绘,框选头部,在原来的命令下加入—快捷命令名称,确认生成即可。[1567_1710206655.mp4](https://bytedance.feishu.cn/space/api/box/stream/download/all/O3Hkb2yqHoCfvaxKqV4cHQgTnph?allow_redirect=1)[heading2]作者:天天向上[content][heading2]作者:CYCHENYUE[content]

Comfyui PuLID人物一致

Eva-CLIP是一种基于对比学习的视觉文本模型,它将文本描述和图像内容映射到一个共享的嵌入空间。这使得模型能够理解和生成与文本描述高度相关的图像内容,或根据图像生成相应的文本描述。Eva-CLIP编码器特别擅长提取图像中的细节特征,并将这些特征转换为有意义的嵌入向量,用于下游任务,如图像生成或分类。主要特点1.对比学习架构:Eva-CLIP使用对比学习方法,将图像和文本嵌入到一个共享的空间。通过最大化匹配图像和文本对的相似度,同时最小化不匹配对的相似度,模型能够高效地学习到图像和文本之间的关联。2.强大的特征提取能力:Eva-CLIP编码器在提取图像细节方面表现优异,能够生成高质量的图像嵌入。这些嵌入可以捕捉到图像的各种细节特征,使得下游任务(如图像生成)能够更精确地再现参考图像的特征。3.多模态应用:由于Eva-CLIP能够处理图像和文本两种模态,它被广泛应用于多模态任务中,如图像生成、图像检索、图像标注等。其强大的多模态特性使得它在需要结合图像和文本信息的应用中非常有效。应用场景1.图像生成:在图像生成任务中,Eva-CLIP编码器可以根据参考图像提取细节特征,并将这些特征嵌入到生成模型中,以生成与参考图像高度相似的新图像。2.图像检索:Eva-CLIP可以用于从大规模图像数据库中检索与给定文本描述最匹配的图像,或从文本描述中检索相应的图像。3.图像标注:Eva-CLIP还可以根据图像内容生成相应的文本描述,应用于自动图像标注等任务。技术细节Eva-CLIP编码器通常与深度神经网络结合使用,如卷积神经网络(CNN)用于图像特征提取,Transformer网络用于处理文本描述。通过对比学习,这些网络能够协同工作,将多模态数据映射到一个共同的嵌入空间。

Others are asking
如何学习comfyUI
以下是一些学习 ComfyUI 的途径和资源: 1. 官方文档:ComfyUI 官方文档提供了使用手册和安装指南,适合初学者和有经验的用户,可在获取相关信息。 2. 优设网:有一篇详细的 ComfyUI 入门教程,适合初学者,详细介绍了其特点、安装方法及如何生成图像等内容,教程地址是。 3. 知乎:有用户分享了 ComfyUI 的部署教程和使用说明,适合有一定基础并希望进一步了解的用户,可在找到相关教程。 4. Bilibili:提供了一系列涵盖从新手入门到精通各个阶段的视频教程,可在找到。 此外,还有以下 ComfyUI 共学快闪的学习内容: 王蓉🍀🎈Wang Easy 基础搭建和转绘 唯有葵花向日晴基础教程,工作流开发,实际应用场景 热辣 HuolarrAI 系统课私聊图生视频 咖菲猫咪基础教程/工作流搭建思路/各版本模型使用的优缺点 傅小瑶 Lucky 如何制作多人转绘视频 云尚工作流节点搭建思路 FǎFá 热门节点功能,搭建 森林小羊基本报错解决方式及基础工作流逻辑分析 苏小蕊基础教程 Sophy 基础课程 蜂老六装一百个最新常用插件后如何快速解决冲突问题 阿苏工作流框架设计 aflyrt comfyui 节点设计与开发 老宋&SD 深度解释虚拟环境部署和缺失模型的安装 Liguo 模型训练 啊乐福基础课程 塵优秀案例 风信基础课程➕平面设计应用场景 北南基础课程 视频工作流框架设计 Damon 基础课程 渔舟基础课程+工作流搭建思路 乔木船长工作流 ☘️基础教程 ☘基础教程 工作流设计+典型案例剖析 麒白掌工作流搭建 OutSider 风格迁移 吴鹏基础+工作流搭建 拾光工作流基础搭建从入门到精通 茶浅浅。视频转绘/节点工作流介绍 百废待.新(早睡版)工作流从入门到进阶 电商应用场景 学习使用 ComfyUI 的原因包括: 更接近 SD 的底层工作原理。 实现自动化工作流,消灭重复性工作。 作为强大的可视化后端工具,可实现 SD 之外的功能,如调用 api 及本文所讲的内容等。 可根据定制需求开发节点或模块。 例如,有人因工作室需要抠图素材,传统途径存在问题,近期在 github 上看到一个名为的项目,其中包含丰富的蒙版处理节点,于是基于此创建了 ComfyUI 工作流,不仅可用于绿幕素材的抠图,还能自动生成定制需求的抠图素材,全程只需几秒。
2025-03-17
有comfyui的系列教程吗
以下是一些关于 ComfyUI 的系列教程资源: 1. ComfyUI 官方文档:提供了使用手册和安装指南,适合初学者和有经验的用户。可在获取相关信息。 2. 优设网:有详细的 ComfyUI 入门教程,适合初学者,介绍了特点、安装方法及生成图像等内容。教程地址是。 3. 知乎:有用户分享了 ComfyUI 的部署教程和使用说明,适合有一定基础并希望进一步了解的用户。可在找到相关教程。 4. Bilibili:提供了从新手入门到精通的一系列视频教程,可在找到。 此外,还有以下相关教程: 1. 硅基流动提供的 BizyAir ComfyUI 系列教程,包括六节课程,如文生图工作流搭建、SiliconLLM 的使用、LoRA 的使用和上传等。详情可访问 https://siliconflow.cn/zhcn/ 。 2. ComfyUI 共学快闪飞书学习群中的各种教程,如王蓉的基础搭建和转绘、唯有葵花向日晴的基础教程和工作流开发等。 内容由 AI 大模型生成,请仔细甄别。
2025-03-17
comfy UI 如何保持人物一致性
要在 ComfyUI 中保持人物一致性,可以通过以下方式实现: 1. PuLID 技术: PuLID 是一种用于在文本生成图像时自定义图像中人物或物体身份(ID)的新技术,无需复杂调整。 它结合了 Lightning T2I 分支和标准扩散模型两个不同的模型分支,并引入了对比对齐损失和精确 ID 损失两种损失,以确保在保持原始模型效果的同时,高精度地自定义 ID。 Lightning T2I 分支是快速、高效的文本到图像生成模型,标准扩散模型是常见的生成高质量图像的模型。 PuLID 可以让您在生成图像时更精确地定制人物或物体的身份,将特定 ID(例如人脸)嵌入到预训练的文本到图像模型中,而不会破坏模型的原始能力。 项目地址:https://github.com/ToTheBeginning/PuLID 相关资源: 百度网盘:https://pan.baidu.com/s/1Tro9oQM85BEH7IQ8gVXKsg?pwd=cycy 工作流与模型地址:https://pan.quark.cn/s/2a4cd9bb3a6b 说明文档:https://xiaobot.net/post/6544b1e81d90437394cf0249d14c73c8 instant ID 脸部特征抓取得比 PuLID 好,可放在最后一步重绘,先 PuLID,再 instantID。 2. 节点设置: 节点插件 PuLID ComfyUI:https://github.com/cubiq/PuLID_ComfyUI model:使用预训练的基础文本到图像扩散模型,如 Stable Diffusion。 pulid:加载的 PuLID 模型权重,定义 ID 信息如何插入基础模型。 eva_clip:用于从 ID 参考图像中编码面部特征的 EvaCLIP 模型。 face_analysis:使用 InsightFace 模型识别和裁剪 ID 参考图像中的面部。 image:提供的参考图像用于插入特定 ID。 method:选择 ID 插入方法,如“fidelity”(优先保真度)、“style”(保留生成风格)和“neutral”(平衡两者)。 weight:控制 ID 插入强度,范围为 0 到 5。 start_at 和 end_at:控制在去噪步骤的哪个阶段开始和停止应用 PuLID ID 插入。 attn_mask:此选项用于提供灰度掩码图像,以控制 ID 自定义的应用位置,但并不是必需输入,而是可选输入。 Advanced Node:提供了高级节点,可以通过调整 fidelity 滑块和 projection 选项进行更精细的生成调优。比如,ortho_v2 和 fidelity:8 等价于标准节点的 fidelity 方法,而 projection ortho 和 fidelity:16 等价于 style 方法。 此外,在 8 月 13 日的 ComfyUI 共学中也提到控制人物一致性有很多方法,课程后期会介绍。
2025-03-17
comfyui模型
ComfyUI 相关信息如下: 模型: 目前只支持 sdxl。 节点地址:ComfyUI_InstantID https://github.com/cubiq/ComfyUI_InstantID?tab=readmeovfile 。 主要的模型(ip_adapter.bin),下载后放在 ComfyUI/models/instantid 文件夹里,没有这个文件夹就新建一个,下载链接:https://huggingface.co/InstantX/InstantID/resolve/main/ipadapter.bin?download=true 。 InsightFace 模型是 antelopev2(不是经典的 buffalo_l)。下载模型,解压并将它们放在 ComfyUI/models/insightface/models/antelopev2 目录中,下载链接:https://huggingface.co/MonsterMMORPG/tools/tree/main 。 还需要一个 controlNet 模型,放在 ComfyUI/models/controlnet 目录下,下载链接:https://huggingface.co/InstantX/InstantID/resolve/main/ControlNetModel/diffusion_pytorch_model.safetensors?download=true 。上述模型网络环境不好的,可以在网盘 https://pan.baidu.com/s/1FkGTXLmM0Ofynz04NfCaQ?pwd=cycy 下载。 生图原理: 这张图展示了扩散模型中的加噪和去噪过程。 在 ComfyUI 的节点化界面中,每一步的操作都可以通过不同的模块来实现,用户可以控制潜在空间中的操作(如调度器和噪声的选择)、UNet 中的推理步骤(通过去噪模块实现)、以及条件输入(通过文本提示或图像引导)。 基础模型:ComfyUI 使用预训练的扩散模型作为其核心,通常是 Stable Diffusion 模型,包括 SD1.5、SD2.0、SDXL、SD3、FLUX 等模型。 文本编码:当用户输入文本提示时,ComfyUI 首先使用 CLIP(Contrastive LanguageImage Pretraining)文本编码器将文本转换为向量表示,这个向量捕捉了文本的语义信息。 图片合并背景替换: 背景替换看似简单,但有难度,不同图片合并时要考虑光线、色调、边缘细节,选择了表示较好的流程化技术。 背景移除:模型放在 E:\\ComfyUI\\models\\rembg,需要下载对应的模型。 填充背景:用来移除背景里面的主题,模型需要放在 E:\\ComfyUI\\models\\lama 下。 iclight:在管理器中节点管理,搜索 ComfyUIICLight,安装后重启 ComfyUI,模型可以在网盘里,下载后放入 ComfyUI/models/unet 文件夹。ic 处理过的图片,颜色会发黄偏色,这里就需要做颜色匹配和细节的迁移,注意,不是 IC Light 处理过的就是好的,有时候反而会负优化。
2025-03-17
comfui怎么使用
以下是关于 ComfyUI 的使用方法: 1. 模型放置: t5xxl_fp16.safetensors:放在 ComfyUI/models/clip/目录下。 clip_l.safetensors:放在 ComfyUI/models/clip/目录下。 ae.safetensors:放在 ComfyUI/models/vae/目录下。 flux1dev.safetensors:放在 ComfyUI/models/unet/目录下。 理解方式:flux1dev.safetensors 是底模,ae.safetensors 是 VAE,clip_l.safetensors 和 t5xxl_fp16.safetensors 是关于文字语言编码。 2. 图像形态学处理: 支持的处理方式:erode 腐蚀(去除小噪点/分离相邻对象)、dilate 膨胀(填补小洞/连接临近对象)、open 开(先腐蚀后膨胀)、close 闭(先膨胀后腐蚀)、gradient 梯度(膨胀与腐蚀之差)、top_hat 顶帽(原图与开之差)、bottom_hat 底帽(原图与闭之差)。 使用方法: 更新 ComfyUI。 右键 image/postprocessing/ImageMorphology。 接上图像输入和输出即可。 3. Canny ControlNet: 使用方法:以 SC 文生图为基础,在 C 阶段加上常规的 CN 节点,CN 模型直接下载到/models/checkpoints 里。 模型下载地址:https://huggingface.co/stabilityai/stablecascade/tree/main/controlnet 。 工作流分享地址:https://github.com/ZHOZHOZHO/ComfyUIWorkflowsZHO 。 4. 电脑硬件要求: 系统:Windows7 以上。 显卡要求:NVDIA 独立显卡且显存至少 4G 起步。 硬盘留有足够的空间,最低 100G 起步(包括模型)。 注:mac 系统,AMD 显卡,低显卡的情况也可以安装使用,但功能不全,出错率偏高,严重影响使用体验,个人建议升级设备或者采用云服务器玩耍。
2025-03-16
comfyui连接blender的教程
以下是 ComfyUI 连接 Blender 的教程: 首先,安装下载网盘里的两个文件。先安装稳定版 Blender(这是主程序,解压即用。如果已经有 Blender 的朋友可以跳过这一步)。有 Steam 平台的可以去 Steam 上下载 Blender,软件会自动更新,很方便。 接下来打开软件,安装无限圣杯的插件。进入“偏好设置”——插件——选择“安装”,找到“无限圣杯节点工具”里面的压缩包,不用解压,直接选择压缩包进行安装。安装好之后,打上勾,就可以开启无限圣杯了。 接着看插件下方的 ComfyUI 路径这一栏,将它更改为我们电脑中的 ComfyUI 的地址。然后选择一个适合自己的显存模式:8G 以上选高显存;6G 选中显存;4G 选低显存。安装完成,重启即可。 无限圣杯的使用:打开软件,编辑器类型中会出现“ComfyUI Node”。点击进入 ComfyUI 界面,先点击上方的“新建”按钮,然后展开右侧的 N 面板可以看到无限圣杯的界面。打开节点树的列表,可以看到文生图、图生图以及 ControlNet 等常见工作流。选择文生图,打开会发现还有一些更细化的预设工作流选项。再看看 ControlNet 中的工作流预设。 还有一些根据插件整理的工作流,比如随便选择一个“文生图”中的“基础+自定 VAE”,选好之后,点击“替换节点树”。界面中会出现已经连接好的工作流节点(如果没看到,就按一下 home 键),包括大模型、clip、vae、正反提示词、尺寸,采样器等所有在 webUI 中熟悉的参数,而且全都是中文面板。打开模型节点,可以看到 webUI 中的模型全部都在。这次先不更改参数,点击“运行节点树”,直接生成。此时会提醒是否启用 ComfyUI,点击确定即可。等待一会,就能在最后一个节点预览图中看到生成的图片。点击这里就可以打开后台,看到出图时间。
2025-03-16
在哪里可以了解更多有关stable diffusion ai 生图的使用方法?
以下是了解更多有关 stable diffusion ai 生图使用方法的途径: 1. 点击链接进入官方 DISCORD 服务器:https://discord.com/invite/stablediffusion ,进入 ARTISAN 频道,任意选择一个频道。输入/dream 会提示没有权限,点击链接,注册登录,填写信用卡信息以及地址,点击提交,可免费试用三天,三天后开始收费。输入/dream 提示词,这部分和 MJ 类似。可选参数有五类,包括 prompt(提示词,正常文字输入,必填项)、negative_prompt(负面提示词,填写负面提示词,选填项)、seed(种子值,可以自己填,选填项)、aspect(长宽比,选填项)、model(模型选择,SD3,Core 两种可选,选填项)、Images(张数,14 张,选填项)。完成后选择其中一张。 2. 下次作图时,先选择模板,点击倒数第二个按钮,就能将标准提示词快速输入。描述逻辑通常包括人物及主体特征(服饰、发型发色、五官、表情、动作),场景特征(室内室外、大场景、小细节),环境光照(白天黑夜、特定时段、光、天空),画幅视角(距离、人物比例、观察视角、镜头类型),画质(高画质、高分辨率),画风(插画、二次元、写实)。对于新手,可通过功能型辅助网站来写提示词,如:http://www.atoolbox.net/ ,它可以通过选项卡的方式快速填写关键词信息;https://ai.dawnmark.cn/ ,其每种参数都有缩略图可参考,方便更直观选择提示词。还可以去 C 站(https://civitai.com/)抄作业,每一张图都有详细参数,点击下面的复制数据按钮,然后直接粘贴到正向提示词栏里,点击生成按钮下的第一个按键,Stable Diffusion 就可以将所有参数自动匹配。但要注意图像作者使用的大模型和 LORA,不然即使参数一样,生成的图也会不同。也可以只取其中较好的描述词使用,比如人物描写、背景描述、一些小元素或者画面质感之类的。 3. 将照片放入到后期处理中,使用 GFPGAN 算法将人脸变清晰,可参考文章—— 。将图片再发送到图生图当中,打开 stableSR 脚本,放大两倍。切换到 sd2.1 的模型进行修复,vae 选择 vqgan,提示词可以什么都不写,以免对原图产生干扰。
2025-03-18
AI文生图教程
以下是关于 AI 文生图的教程: Liblibai 简易上手教程: 1. 定主题:明确您想要生成的图片的主题、风格和表达的信息。 2. 选择 Checkpoint:根据主题选择贴近内容的 Checkpoint,如麦橘、墨幽的系列模型。 3. 选择 lora:寻找与生成内容重叠的 lora,以控制图片效果和质量。 4. 设置 VAE:选择 840000 那一串。 5. CLIP 跳过层:设为 2。 6. Prompt 提示词:用英文写想要生成的内容,使用单词和短语组合,用英文半角逗号隔开,无需管语法和长句。 7. 负向提示词 Negative Prompt:用英文写想要避免产生的内容,同样是单词和短语组合,用英文半角逗号隔开,无需语法。 8. 采样方法:一般选 DPM++2M Karras,也可参考模型作者推荐的采样器。 9. 迭代步数:选 DPM++2M Karras 时,在 30 40 之间,多了意义不大且慢,少了出图效果差。 10. 尺寸:根据个人喜好和需求选择。 11. 生成批次:默认 1 批。 Tusiart 简易上手教程: 1. 定主题:明确生成图片的主题、风格和信息。 2. 选择基础模型 Checkpoint:根据主题选择贴近的 Checkpoint,如麦橘、墨幽的系列模型。 3. 选择 lora:寻找重叠内容的 lora 控制图片效果和质量。 4. ControlNet:用于控制图片中特定图像,如人物姿态、特定文字、艺术化二维码等,属于高阶技能。 5. 局部重绘:后续学习。 6. 设置 VAE:选择 840000 。 7. Prompt 提示词:用英文写生成需求,单词和短语组合,用英文半角逗号隔开,无需语法和长句。 8. 负向提示词 Negative Prompt:用英文写避免产生的内容,单词和短语组合,用英文半角逗号隔开,无需语法。 9. 采样算法:一般选 DPM++2M Karras,参考模型作者推荐的采样器更有保障。 10. 采样次数:选 DPM++2M Karras 时,在 30 40 之间,多了意义不大且慢,少了出图效果差。 11. 尺寸:根据个人喜好和需求选择。 此外,还为您提供了一些相关的参考视频和教程链接,供您进一步深入学习。
2025-03-18
现在哪个应用文生图的效果最好?
目前在应用文生图方面,以下几个模型效果较好: 1. DALL·E 3:与当前最流行的文生图应用 Midjourney 相比能打个平手甚至超越,使用门槛较低,不需要用户掌握复杂的 Prompt 编写知识,且已正式上线 ChatGPT,Plus 用户和 Enterprise 用户都可以使用。 2. Imagen 3:真实感满分,指令遵从强。 3. Recraft:真实感强,风格泛化很好,指令遵从较好(会受风格影响)。 但不同模型也有各自的特点和不足,例如: 1. Midjourney:风格化强,艺术感在线,但会失真,指令遵从较差。 2. 快手可图:影视场景能用,风格化较差。 3. Flux.1.1:真实感强,需要搭配 Lora 使用。 4. 文生图大模型 V2.1L(美感版):影视感强,但会有点油腻,细节不够,容易糊脸。 5. Luma:影视感强,但风格单一,糊。 6. 美图奇想 5.0:AI 油腻感重。 7. 腾讯混元:AI 油腻感重,影视感弱,空间结构不准。 8. SD 3.5 Large:崩。 您可以根据具体需求和使用体验选择适合的模型。
2025-03-17
ComfyUI的生图原理
ComfyUI 的生图原理主要包括以下几个方面: 1. Pixel Space 和 Latent Space: Pixel Space(像素空间):图的左边表示输入图像的像素空间,在 ComfyUI 中,可能通过“图像输入”模块或直接从文本提示生成随机噪声图像,生成过程结束时会将处理后的潜在表示转换回像素空间生成最终图像。 Latent Space(潜在空间):ComfyUI 的许多操作都在潜在空间中进行,如 KSampler 节点执行采样过程。图像被映射到潜在空间后,扩散过程在这个空间中进行,可通过节点调整对潜在空间的操作,如噪声添加、去噪步数等,通常由潜在空间操作模块实现。 2. 扩散过程(Diffusion Process): 噪声的生成和逐步还原:扩散过程表示从噪声生成图像的过程,通常通过调度器(如 Normal、Karras 等)控制,可通过“采样器”节点选择不同调度器控制潜在空间中噪声处理及逐步去噪回归到最终图像。 时间步数:生成图像时,扩散模型会进行多个去噪步,在 ComfyUI 中可通过控制步数影响图像生成的精细度和质量。 3. Denoising UNet(去噪 UNet 结构): UNet 模型:ComfyUI 底层依赖 Stable Diffusion,去噪过程由 UNet 网络完成,它是一种编码器解码器结构,能处理多尺度特征表示,在 ComfyUI 中去噪的每个步骤通过模型推理模块实现,调用训练好的 UNet 模型逐步将噪声图像还原成有意义的图像。 Cross Attention(交叉注意力):交叉注意力机制在 Stable Diffusion 中尤为重要,允许模型在生成过程中融入文本提示、图像、语义信息等条件,在 ComfyUI 中通过“文本提示”和“条件输入”节点实现,可调整文本提示的权重影响生成图像的内容。 Skip Connection(跳跃连接):是 UNet 的核心部分,能在不同尺度之间共享特征,在 ComfyUI 的节点网络中表示为中间过程数据的流转,可在不同推理步骤中查看中间生成结果并通过跳跃连接调整特定尺度上的生成效果。 Switch(切换器):在去噪过程中的不同阶段对特征流进行控制,在 ComfyUI 中可通过修改模型的参数节点或自定义网络结构节点,对不同阶段的噪声去除策略进行微调。 4. 基础模型:ComfyUI 使用预训练的扩散模型作为核心,通常是 Stable Diffusion 模型,包括 SD1.5、SD2.0、SDXL、SD3、FLUX 等模型,这些模型通过大量图像和文本对的训练,学会将文本描述与视觉概念关联起来。 5. 文本编码:当用户输入文本提示时,ComfyUI 首先使用 CLIP 文本编码器将文本转换为向量表示,该向量捕捉文本的语义信息。
2025-03-12
我想知道现在中国网络环境内可以用的最好图片AI,以图生图稳定
目前在中国网络环境内可用的较好的以图生图且较为稳定的 AI 产品有: 1. Artguru AI Art Generator:在线平台,能生成逼真图像,为设计师提供灵感,丰富创作过程。 2. Retrato:AI 工具,可将图片转换为非凡肖像,有 500 多种风格可选,适合制作个性头像。 3. Stable Diffusion Reimagine:新型 AI 工具,通过稳定扩散算法生成精细、具细节的全新视觉作品。 4. Barbie Selfie Generator:专为喜欢梦幻童话风格的人设计的 AI 工具,能将上传的照片转换为芭比风格,效果出色。 此外,关于 Stable Diffusion 还有一些相关的使用技巧和处理步骤: 用 GFPGAN 算法将人脸变清晰,可参考文章。 将图片发送到图生图中,打开 stableSR 脚本放大两倍,该放大插件是所有插件中对原图还原最精准、重绘效果最好的,可参考文章。 使用 Stable Diffusion 中的【X/Y/Z plot】脚本做参数对比,如设置 X 轴为提示词相关性,Y 轴为重绘幅度等。绘图时可通过增加提示词、使用画笔工具等进行局部修改和重绘。
2025-03-12
文生图
以下是关于文生图的详细教程: 定主题:明确您需要生成的图片的主题、风格以及要表达的信息。 选择基础模型 Checkpoint:根据主题选择内容贴近的模型,如麦橘、墨幽的系列模型,如麦橘写实、麦橘男团、墨幽人造人等。 选择 lora:基于生成内容寻找重叠的 lora,以控制图片效果和质量,可参考广场上好看的帖子中使用的 lora。 ControlNet:可控制图片中特定的图像,如人物姿态、生成特定文字或艺术化二维码等,属于高阶技能。 设置 VAE:通常选择 840000 即可。 Prompt 提示词:用英文书写想要 AI 生成的内容,使用单词和短语组合,无需考虑语法,单词、短语间用英文半角逗号隔开。 负向提示词 Negative Prompt:同样用英文书写想要 AI 避免产生的内容,单词和短语组合,用英文半角逗号隔开。 采样算法:一般选择 DPM++2M Karras 较多,也可参考 checkpoint 详情页中模型作者推荐的采样器。 采样次数:选择 DPM++2M Karras 时,采样次数通常在 30 40 之间。 尺寸:根据个人喜好和需求选择。 以下是一些常见的文生图工具: 腾讯混元、luma、Recraft、文生图大模型 V2.1L(美感版)、美图奇想 5.0、midjourney、快手可图、Flux.1.1、Stable Diffusion 3.5 Large、Imagen 3 网页版
2025-03-11
想在comfyui搭建一个音频节奏生成ai抽象粒子视觉效果的工作流,应该使用哪些模型节点?如何搭建?
在 ComfyUI 搭建音频节奏生成 AI 抽象粒子视觉效果的工作流,您可以参考以下内容: 1. 大模型节点: 您可以根据自己的风格选择不同的大模型,推荐使用: AWPainting,链接:https://civitai.com/models/84476/awpainting primemixanything,链接:https://civitai.com/models/75089/primemixanything xxmix9realistic v40,链接:https://civitai.com/models/47274/xxmix9realistic 2. 关键词节点: 可以使用工作流内的关键词,也可以输入自己的正负面关键词。 3. Lora 节点: 可根据自己风格搭配进行选择,如需多个 Lora 可进行串联。 4. ControlNet 节点: 选用 qrcode_monster V2 版本,相比于 V1 版本 V2 版本识别性更强。下载需要魔法,没有魔法的同学文末领取模型。下载链接:https://huggingface.co/monsterlabs/control_v1p_sd15_qrcode_monster/tree/main/v2 5. 采样器节点: 所有生图的老演员了,Step 要选择高步数,35 50 即可。采样器默认的 euler a /dpmpp 2m sde 基础节点介绍: 1. Checkpoint 基础模型(大模型/底模型)节点: 属于预调模型,决定了 AI 图片的主要风格。输出连接:Model 连接 KSampler 采样器的 Model;Clip 连接终止层数的 Clip;Vae 连接 VaeDecode 的 Vae。 2. Clip 终止层数(clip skip)节点: ComfyUI 的是负数的,webUI 的是正数。输出入点:Clip 连接 Checkpoint 基础模型的 Clip。输出节点:Clip 连接 Prompt 节点的 Clip。正向提示词和负面提示词各一个。 3. Prompt 节点: 输出入点:Clip 连接 Clip 终止层数节点的 Clip。输出节点:正向提示词和负面提示词各连接一个。 4. KSampler 采样器: 输出入点:Model 连接 Checkpoint 基础模型;Positive 连接正向提示词;negative 连接负面提示词;latent_imageL 连接 Empty Latent Image 潜空间图像的 Latent。输出节点:Latent 连接一个 VAE 的 Samples。 5. Empty Latent Image 潜空间图像: 设置出图尺寸,例如 10241024。输出入点:Latent 连接 KSampler 采样器的 Latent。 此外,还有一些根据插件整理的工作流,您可以先随便选择一个“文生图”中的“基础+自定 VAE”。选好之后,点击“替换节点树”。界面中就会出现已经连接好的工作流节点(如果没看到,就按一下 home 键),包括大模型、clip、vae、正反提示词、尺寸,采样器等所有在 webUI 中熟悉的参数,而且全都是中文面板。打开模型节点,可以看到 webUI 中的模型全部都在。这次先不更改参数,点击“运行节点树”,直接生成。此时会提醒您是否启用 ComfyUI,点击确定即可。等待一会,就能在最后一个节点预览图中看到生成的图片。点击这里就可以打开后台,看到出图时间。
2025-03-15