Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

comfy UI 如何保持人物一致性

Answer

要在 ComfyUI 中保持人物一致性,可以通过以下方式实现:

  1. PuLID 技术:
    • PuLID 是一种用于在文本生成图像时自定义图像中人物或物体身份(ID)的新技术,无需复杂调整。
    • 它结合了 Lightning T2I 分支和标准扩散模型两个不同的模型分支,并引入了对比对齐损失和精确 ID 损失两种损失,以确保在保持原始模型效果的同时,高精度地自定义 ID。
    • Lightning T2I 分支是快速、高效的文本到图像生成模型,标准扩散模型是常见的生成高质量图像的模型。
    • PuLID 可以让您在生成图像时更精确地定制人物或物体的身份,将特定 ID(例如人脸)嵌入到预训练的文本到图像模型中,而不会破坏模型的原始能力。
    • 项目地址:https://github.com/ToTheBeginning/PuLID
    • 相关资源:
      • 百度网盘:https://pan.baidu.com/s/1Tro9oQM85BEH7IQ8gVXKsg?pwd=cycy
      • 工作流与模型地址:https://pan.quark.cn/s/2a4cd9bb3a6b
      • 说明文档:https://xiaobot.net/post/6544b1e8-1d90-4373-94cf-0249d14c73c8
    • instant ID 脸部特征抓取得比 PuLID 好,可放在最后一步重绘,先 PuLID,再 instantID。
  2. 节点设置:
    • 节点插件 PuLID ComfyUI:https://github.com/cubiq/PuLID_ComfyUI
    • model:使用预训练的基础文本到图像扩散模型,如 Stable Diffusion。
    • pulid:加载的 PuLID 模型权重,定义 ID 信息如何插入基础模型。
    • eva_clip:用于从 ID 参考图像中编码面部特征的 Eva-CLIP 模型。
    • face_analysis:使用 InsightFace 模型识别和裁剪 ID 参考图像中的面部。
    • image:提供的参考图像用于插入特定 ID。
    • method:选择 ID 插入方法,如“fidelity”(优先保真度)、“style”(保留生成风格)和“neutral”(平衡两者)。
    • weight:控制 ID 插入强度,范围为 0 到 5。
    • start_at 和 end_at:控制在去噪步骤的哪个阶段开始和停止应用 PuLID ID 插入。
    • attn_mask:此选项用于提供灰度掩码图像,以控制 ID 自定义的应用位置,但并不是必需输入,而是可选输入。
    • Advanced Node:提供了高级节点,可以通过调整 fidelity 滑块和 projection 选项进行更精细的生成调优。比如,ortho_v2 和 fidelity:8 等价于标准节点的 fidelity 方法,而 projection ortho 和 fidelity:16 等价于 style 方法。

此外,在 8 月 13 日的 ComfyUI 共学中也提到控制人物一致性有很多方法,课程后期会介绍。

Content generated by AI large model, please carefully verify (powered by aily)

References

Comfyui PuLID人物一致

PuLID是一种新的技术,用于在文本生成图像时自定义图像中的人物或物体的身份(ID),不需要进行复杂的调整。它结合了两个不同的模型分支(Lightning T2I分支和标准扩散模型),引入了两种损失(对比对齐损失和精确ID损失),以确保在保持原始模型效果的同时,高精度地自定义ID。简单来说,PuLID可以让你在生成图像时更精确地定制人物或物体的身份,将特定ID(例如人脸)嵌入到预训练的文本到图像模型中,而不会破坏模型的原始能力。这允许生成特定人物的图像,同时仍然能够使用文本提示修改属性、样式、背景等1.模型分支:Lightning T2I分支:这是一个快速、高效的文本到图像生成模型。标准扩散模型:这是一个常见的、生成高质量图像的模型。PuLID把这两个模型结合起来,利用它们各自的优势。1.两种损失:对比对齐损失:这个损失帮助模型学习将输入的文本和生成的图像内容对齐,使生成的图像更符合文本描述。精确ID损失:这个损失确保生成的图像中的特定身份特征(比如人物的脸部特征)与目标ID一致。通过结合这两个模型分支和引入这两种损失,PuLID可以在生成图像时更准确地自定义身份,并且生成的图像在插入ID前后保持一致性。项目地址https://github.com/ToTheBeginning/PuLIDinstant ID脸部特征抓取得比pulid好,放在最后一步重绘,先pulid,再instantIDhttps://pan.baidu.com/s/1Tro9oQM85BEH7IQ8gVXKsg?pwd=cycy工作流与模型地址https://pan.quark.cn/s/2a4cd9bb3a6b说明文档https://xiaobot.net/post/6544b1e8-1d90-4373-94cf-0249d14c73c8

8月13日ComfyUI共学

[heading2]总结关于Lora串联和图像放大模型的讨论Lora串联:多个Lora串联时左右顺序不影响结果,可复制并点对点连接。CLIP层调整:CLIP层-1和-2的效果不同,加Lora时某些Lora可能更适合-2。Lora作用:Lora可用于生成底模无法画出的内容,是一种经济实用的模型微调方式。打断渲染跑图:在运行中点击取消可打断正在渲染跑的图。图像放大模型:通过up scale image using model节点放大图像,可选择放大模型,用resize节点调整尺寸,再用编码器和采样器处理。采样原因:放大模型直接放大的图像效果不佳,需再次采样增加细节。关于飞桨使用中节点添加及相关问题的讨论添加飞桨缺失节点的方法:可以将工作流拖入查看标红节点,通过管理器安装缺失节点,也可从GitHub获取节点包放入文件管理系统。图像放大方式的效果差异:通过专门训练的放大模型放大图像效果更好,直接像素放大效果不佳。采样器和调度器参数设置:建议参考模型作者推荐的参数,并结合自己的调试来寻找最佳参数,推荐了o2a、DMP佳佳2M采样器和normal、cars调度器。Web UI模型管理的备注问题:目前未找到较好的给模型加备注的节点,靠改模型文件夹名字备注。人物一致性控制:控制人物在多场景、多个姿势下的一致性有很多方法,课程后期会介绍。多张图输出的显示问题:一次产出多张图在预览窗口目前不能并排显示。Lora的刷新:将Lora丢到文件夹后,多点几次刷新即可,Web UI中Lora库有刷新按钮。进阶学习途径:提到一些全球交流频道,如Confii生态大会相关频道。

Comfyui PuLID人物一致

节点插件PuLID ComfyUI https://github.com/cubiq/PuLID_ComfyUImodel:使用预训练的基础文本到图像扩散模型,如Stable Diffusion。pulid:加载的PuLID模型权重,定义ID信息如何插入基础模型。eva_clip:用于从ID参考图像中编码面部特征的Eva-CLIP模型。face_analysis:使用InsightFace模型识别和裁剪ID参考图像中的面部。image:提供的参考图像用于插入特定ID。method:选择ID插入方法,如"fidelity"(优先保真度)、"style"(保留生成风格)和"neutral"(平衡两者)。weight:控制ID插入强度,范围为0到5。start_at和end_at:控制在去噪步骤的哪个阶段开始和停止应用PuLID ID插入。attn_mask:此选项用于提供灰度掩码图像,以控制ID自定义的应用位置,但并不是必需输入,而是可选输入。Advanced Node:提供了高级节点,可以通过调整fidelity滑块和projection选项进行更精细的生成调优。比如,ortho_v2和fidelity:8等价于标准节点的fidelity方法,而projection ortho和fidelity:16等价于style方法。

Others are asking
如何学习comfyUI
以下是一些学习 ComfyUI 的途径和资源: 1. 官方文档:ComfyUI 官方文档提供了使用手册和安装指南,适合初学者和有经验的用户,可在获取相关信息。 2. 优设网:有一篇详细的 ComfyUI 入门教程,适合初学者,详细介绍了其特点、安装方法及如何生成图像等内容,教程地址是。 3. 知乎:有用户分享了 ComfyUI 的部署教程和使用说明,适合有一定基础并希望进一步了解的用户,可在找到相关教程。 4. Bilibili:提供了一系列涵盖从新手入门到精通各个阶段的视频教程,可在找到。 此外,还有以下 ComfyUI 共学快闪的学习内容: 王蓉🍀🎈Wang Easy 基础搭建和转绘 唯有葵花向日晴基础教程,工作流开发,实际应用场景 热辣 HuolarrAI 系统课私聊图生视频 咖菲猫咪基础教程/工作流搭建思路/各版本模型使用的优缺点 傅小瑶 Lucky 如何制作多人转绘视频 云尚工作流节点搭建思路 FǎFá 热门节点功能,搭建 森林小羊基本报错解决方式及基础工作流逻辑分析 苏小蕊基础教程 Sophy 基础课程 蜂老六装一百个最新常用插件后如何快速解决冲突问题 阿苏工作流框架设计 aflyrt comfyui 节点设计与开发 老宋&SD 深度解释虚拟环境部署和缺失模型的安装 Liguo 模型训练 啊乐福基础课程 塵优秀案例 风信基础课程➕平面设计应用场景 北南基础课程 视频工作流框架设计 Damon 基础课程 渔舟基础课程+工作流搭建思路 乔木船长工作流 ☘️基础教程 ☘基础教程 工作流设计+典型案例剖析 麒白掌工作流搭建 OutSider 风格迁移 吴鹏基础+工作流搭建 拾光工作流基础搭建从入门到精通 茶浅浅。视频转绘/节点工作流介绍 百废待.新(早睡版)工作流从入门到进阶 电商应用场景 学习使用 ComfyUI 的原因包括: 更接近 SD 的底层工作原理。 实现自动化工作流,消灭重复性工作。 作为强大的可视化后端工具,可实现 SD 之外的功能,如调用 api 及本文所讲的内容等。 可根据定制需求开发节点或模块。 例如,有人因工作室需要抠图素材,传统途径存在问题,近期在 github 上看到一个名为的项目,其中包含丰富的蒙版处理节点,于是基于此创建了 ComfyUI 工作流,不仅可用于绿幕素材的抠图,还能自动生成定制需求的抠图素材,全程只需几秒。
2025-03-17
有comfyui的系列教程吗
以下是一些关于 ComfyUI 的系列教程资源: 1. ComfyUI 官方文档:提供了使用手册和安装指南,适合初学者和有经验的用户。可在获取相关信息。 2. 优设网:有详细的 ComfyUI 入门教程,适合初学者,介绍了特点、安装方法及生成图像等内容。教程地址是。 3. 知乎:有用户分享了 ComfyUI 的部署教程和使用说明,适合有一定基础并希望进一步了解的用户。可在找到相关教程。 4. Bilibili:提供了从新手入门到精通的一系列视频教程,可在找到。 此外,还有以下相关教程: 1. 硅基流动提供的 BizyAir ComfyUI 系列教程,包括六节课程,如文生图工作流搭建、SiliconLLM 的使用、LoRA 的使用和上传等。详情可访问 https://siliconflow.cn/zhcn/ 。 2. ComfyUI 共学快闪飞书学习群中的各种教程,如王蓉的基础搭建和转绘、唯有葵花向日晴的基础教程和工作流开发等。 内容由 AI 大模型生成,请仔细甄别。
2025-03-17
comfy ui 九宫格生图保持人物一致性的原理
Comfy UI 九宫格生图保持人物一致性的原理主要基于 PuLID 技术,具体如下: PuLID 是一种用于在文本生成图像时自定义图像中人物或物体身份(ID)的新技术,它结合了两个不同的模型分支(Lightning T2I 分支和标准扩散模型),引入了两种损失(对比对齐损失和精确 ID 损失)。 Lightning T2I 分支是一个快速、高效的文本到图像生成模型。 标准扩散模型是常见的、生成高质量图像的模型。 对比对齐损失帮助模型学习将输入的文本和生成的图像内容对齐,使生成的图像更符合文本描述。 精确 ID 损失确保生成的图像中的特定身份特征(比如人物的脸部特征)与目标 ID 一致。 此外,在保持人物一致性方面,还有一些操作步骤: 生成图像(提示词加入分割描述,让一张图生成多张同空间小图)。 通过目标图像不断的重复生成,获取更多一致性的角色图像,下载分类(按照视角不同分类)。 上传图像,调用 prefer option set 命令,先写命令名称(一个视角操作一次),再放入该视角的照片(4 5 张)。 放开角色限制生成图像,在确认好的图像上进行局部重绘,框选头部,在原来的命令下加入—快捷命令名称,确认生成即可。 同时,Eva CLIP 也是相关的技术: Eva CLIP 是一种基于对比学习的视觉文本模型,将文本描述和图像内容映射到一个共享的嵌入空间。 对比学习架构:使用对比学习方法,将图像和文本嵌入到一个共享的空间,通过最大化匹配图像和文本对的相似度,同时最小化不匹配对的相似度,学习到图像和文本之间的关联。 强大的特征提取能力:编码器擅长提取图像中的细节特征,并将其转换为有意义的嵌入向量,用于下游任务。 多模态应用:能够处理图像和文本两种模态,广泛应用于多模态任务中,如生成、检索、标注等。 其应用场景包括图像生成、图像检索、图像标注等。Eva CLIP 编码器通常与深度神经网络结合使用,如卷积神经网络(CNN)用于图像特征提取,Transformer 网络用于处理文本描述。 项目地址:https://github.com/ToTheBeginning/PuLID 相关资源: instant ID 脸部特征抓取得比 pulid 好,放在最后一步重绘,先 pulid,再 instantID https://pan.baidu.com/s/1Tro9oQM85BEH7IQ8gVXKsg?pwd=cycy 工作流与模型地址:https://pan.quark.cn/s/2a4cd9bb3a6b 说明文档:https://xiaobot.net/post/6544b1e8 1d90 4373 94cf 0249d14c73c8 测试案例:
2025-03-17
comfyui模型
ComfyUI 相关信息如下: 模型: 目前只支持 sdxl。 节点地址:ComfyUI_InstantID https://github.com/cubiq/ComfyUI_InstantID?tab=readmeovfile 。 主要的模型(ip_adapter.bin),下载后放在 ComfyUI/models/instantid 文件夹里,没有这个文件夹就新建一个,下载链接:https://huggingface.co/InstantX/InstantID/resolve/main/ipadapter.bin?download=true 。 InsightFace 模型是 antelopev2(不是经典的 buffalo_l)。下载模型,解压并将它们放在 ComfyUI/models/insightface/models/antelopev2 目录中,下载链接:https://huggingface.co/MonsterMMORPG/tools/tree/main 。 还需要一个 controlNet 模型,放在 ComfyUI/models/controlnet 目录下,下载链接:https://huggingface.co/InstantX/InstantID/resolve/main/ControlNetModel/diffusion_pytorch_model.safetensors?download=true 。上述模型网络环境不好的,可以在网盘 https://pan.baidu.com/s/1FkGTXLmM0Ofynz04NfCaQ?pwd=cycy 下载。 生图原理: 这张图展示了扩散模型中的加噪和去噪过程。 在 ComfyUI 的节点化界面中,每一步的操作都可以通过不同的模块来实现,用户可以控制潜在空间中的操作(如调度器和噪声的选择)、UNet 中的推理步骤(通过去噪模块实现)、以及条件输入(通过文本提示或图像引导)。 基础模型:ComfyUI 使用预训练的扩散模型作为其核心,通常是 Stable Diffusion 模型,包括 SD1.5、SD2.0、SDXL、SD3、FLUX 等模型。 文本编码:当用户输入文本提示时,ComfyUI 首先使用 CLIP(Contrastive LanguageImage Pretraining)文本编码器将文本转换为向量表示,这个向量捕捉了文本的语义信息。 图片合并背景替换: 背景替换看似简单,但有难度,不同图片合并时要考虑光线、色调、边缘细节,选择了表示较好的流程化技术。 背景移除:模型放在 E:\\ComfyUI\\models\\rembg,需要下载对应的模型。 填充背景:用来移除背景里面的主题,模型需要放在 E:\\ComfyUI\\models\\lama 下。 iclight:在管理器中节点管理,搜索 ComfyUIICLight,安装后重启 ComfyUI,模型可以在网盘里,下载后放入 ComfyUI/models/unet 文件夹。ic 处理过的图片,颜色会发黄偏色,这里就需要做颜色匹配和细节的迁移,注意,不是 IC Light 处理过的就是好的,有时候反而会负优化。
2025-03-17
comfui怎么使用
以下是关于 ComfyUI 的使用方法: 1. 模型放置: t5xxl_fp16.safetensors:放在 ComfyUI/models/clip/目录下。 clip_l.safetensors:放在 ComfyUI/models/clip/目录下。 ae.safetensors:放在 ComfyUI/models/vae/目录下。 flux1dev.safetensors:放在 ComfyUI/models/unet/目录下。 理解方式:flux1dev.safetensors 是底模,ae.safetensors 是 VAE,clip_l.safetensors 和 t5xxl_fp16.safetensors 是关于文字语言编码。 2. 图像形态学处理: 支持的处理方式:erode 腐蚀(去除小噪点/分离相邻对象)、dilate 膨胀(填补小洞/连接临近对象)、open 开(先腐蚀后膨胀)、close 闭(先膨胀后腐蚀)、gradient 梯度(膨胀与腐蚀之差)、top_hat 顶帽(原图与开之差)、bottom_hat 底帽(原图与闭之差)。 使用方法: 更新 ComfyUI。 右键 image/postprocessing/ImageMorphology。 接上图像输入和输出即可。 3. Canny ControlNet: 使用方法:以 SC 文生图为基础,在 C 阶段加上常规的 CN 节点,CN 模型直接下载到/models/checkpoints 里。 模型下载地址:https://huggingface.co/stabilityai/stablecascade/tree/main/controlnet 。 工作流分享地址:https://github.com/ZHOZHOZHO/ComfyUIWorkflowsZHO 。 4. 电脑硬件要求: 系统:Windows7 以上。 显卡要求:NVDIA 独立显卡且显存至少 4G 起步。 硬盘留有足够的空间,最低 100G 起步(包括模型)。 注:mac 系统,AMD 显卡,低显卡的情况也可以安装使用,但功能不全,出错率偏高,严重影响使用体验,个人建议升级设备或者采用云服务器玩耍。
2025-03-16
comfyui连接blender的教程
以下是 ComfyUI 连接 Blender 的教程: 首先,安装下载网盘里的两个文件。先安装稳定版 Blender(这是主程序,解压即用。如果已经有 Blender 的朋友可以跳过这一步)。有 Steam 平台的可以去 Steam 上下载 Blender,软件会自动更新,很方便。 接下来打开软件,安装无限圣杯的插件。进入“偏好设置”——插件——选择“安装”,找到“无限圣杯节点工具”里面的压缩包,不用解压,直接选择压缩包进行安装。安装好之后,打上勾,就可以开启无限圣杯了。 接着看插件下方的 ComfyUI 路径这一栏,将它更改为我们电脑中的 ComfyUI 的地址。然后选择一个适合自己的显存模式:8G 以上选高显存;6G 选中显存;4G 选低显存。安装完成,重启即可。 无限圣杯的使用:打开软件,编辑器类型中会出现“ComfyUI Node”。点击进入 ComfyUI 界面,先点击上方的“新建”按钮,然后展开右侧的 N 面板可以看到无限圣杯的界面。打开节点树的列表,可以看到文生图、图生图以及 ControlNet 等常见工作流。选择文生图,打开会发现还有一些更细化的预设工作流选项。再看看 ControlNet 中的工作流预设。 还有一些根据插件整理的工作流,比如随便选择一个“文生图”中的“基础+自定 VAE”,选好之后,点击“替换节点树”。界面中会出现已经连接好的工作流节点(如果没看到,就按一下 home 键),包括大模型、clip、vae、正反提示词、尺寸,采样器等所有在 webUI 中熟悉的参数,而且全都是中文面板。打开模型节点,可以看到 webUI 中的模型全部都在。这次先不更改参数,点击“运行节点树”,直接生成。此时会提醒是否启用 ComfyUI,点击确定即可。等待一会,就能在最后一个节点预览图中看到生成的图片。点击这里就可以打开后台,看到出图时间。
2025-03-16
想在comfyui搭建一个音频节奏生成ai抽象粒子视觉效果的工作流,应该使用哪些模型节点?如何搭建?
在 ComfyUI 搭建音频节奏生成 AI 抽象粒子视觉效果的工作流,您可以参考以下内容: 1. 大模型节点: 您可以根据自己的风格选择不同的大模型,推荐使用: AWPainting,链接:https://civitai.com/models/84476/awpainting primemixanything,链接:https://civitai.com/models/75089/primemixanything xxmix9realistic v40,链接:https://civitai.com/models/47274/xxmix9realistic 2. 关键词节点: 可以使用工作流内的关键词,也可以输入自己的正负面关键词。 3. Lora 节点: 可根据自己风格搭配进行选择,如需多个 Lora 可进行串联。 4. ControlNet 节点: 选用 qrcode_monster V2 版本,相比于 V1 版本 V2 版本识别性更强。下载需要魔法,没有魔法的同学文末领取模型。下载链接:https://huggingface.co/monsterlabs/control_v1p_sd15_qrcode_monster/tree/main/v2 5. 采样器节点: 所有生图的老演员了,Step 要选择高步数,35 50 即可。采样器默认的 euler a /dpmpp 2m sde 基础节点介绍: 1. Checkpoint 基础模型(大模型/底模型)节点: 属于预调模型,决定了 AI 图片的主要风格。输出连接:Model 连接 KSampler 采样器的 Model;Clip 连接终止层数的 Clip;Vae 连接 VaeDecode 的 Vae。 2. Clip 终止层数(clip skip)节点: ComfyUI 的是负数的,webUI 的是正数。输出入点:Clip 连接 Checkpoint 基础模型的 Clip。输出节点:Clip 连接 Prompt 节点的 Clip。正向提示词和负面提示词各一个。 3. Prompt 节点: 输出入点:Clip 连接 Clip 终止层数节点的 Clip。输出节点:正向提示词和负面提示词各连接一个。 4. KSampler 采样器: 输出入点:Model 连接 Checkpoint 基础模型;Positive 连接正向提示词;negative 连接负面提示词;latent_imageL 连接 Empty Latent Image 潜空间图像的 Latent。输出节点:Latent 连接一个 VAE 的 Samples。 5. Empty Latent Image 潜空间图像: 设置出图尺寸,例如 10241024。输出入点:Latent 连接 KSampler 采样器的 Latent。 此外,还有一些根据插件整理的工作流,您可以先随便选择一个“文生图”中的“基础+自定 VAE”。选好之后,点击“替换节点树”。界面中就会出现已经连接好的工作流节点(如果没看到,就按一下 home 键),包括大模型、clip、vae、正反提示词、尺寸,采样器等所有在 webUI 中熟悉的参数,而且全都是中文面板。打开模型节点,可以看到 webUI 中的模型全部都在。这次先不更改参数,点击“运行节点树”,直接生成。此时会提醒您是否启用 ComfyUI,点击确定即可。等待一会,就能在最后一个节点预览图中看到生成的图片。点击这里就可以打开后台,看到出图时间。
2025-03-15
人物一致性
Midjourney 的角色一致性功能: 此功能类似于“风格参考”,但尝试使人物与“人物参考”图像相匹配。 使用方法:在提示词后输入`cref URL`并附上一个人物图像的 URL。需注意一定要在提示词后面,否则会报错。 可以使用`cw`来修改参考“强度”,从 100 到 0。强度 100(`cw 100`)是默认值,会使用面部、头发和衣服;强度 0(`cw 0`)时,只会关注面部(适合改变服装/发型等)。 该功能同步支持 MJ V6 和 Niji V6。 对于保证角色一致性,可利用 MJ 重绘功能,在重绘提示词里输入`cref cw`。 若有黑边问题,可将黑边部分框住,重绘输入关键词“background”去除黑边,保证背景一致。 体验 MJ 网页版效果更佳,网址:https://alpha.midjourney.com/
2025-03-13
midjourney 一致性
Midjourney 推出了角色一致性功能,以下是相关要点: 1. 该功能在 MJ 一鸽再鸽后终于放出,同步支持 MJ V6 和 Niji V6。 2. 风格一致性、角色一致性、场景一致性是进入生产管线的重要可控性功能,实现难度由低到高。 3. cref 背后参数 cw 的值可从 0 设到 100,cw 100 是默认参数,会参考原图的脸部、头发和衣服,但会非常不吃 Prompt;cw 0 时,就只会参考脸部,约等于一个换脸。 4. 使用方法:在提示词后输入 `cref URL` 并附上一个人物图像的 URL,注意一定要在提示词后面,第一次没注意加在前面会报错。可以使用 `cw` 来修改参考强度,强度 100 是默认值,会使用面部、头发和衣服;强度 0 时,只会关注面部,适合改变服装、发型等。 5. cref 命令适用于单一主题、单一角色的图像。如果计划在场景中添加多个角色,需要使用平移按钮来添加,基于 cref 的多个角色放置到单个画布上的最佳方法是使用平移功能将新的画布与现有画布拼接在一起,每个新画布的部分都将有自己的 cref。使用时需先使用 /settings 将 Remix 打开,然后选择 ,选择将包含第二个字符的图像,然后使用 U 将其从网格中分离出来,寻找蓝色小箭头添加新角色。 6. 您可以仅描述环境、周围环境、背景或情境,Midjourney 将努力将角色融入场景中。如果出现不连贯的结果,可尝试使用更高值的样式化(s),例如 s 800。 7. 体验 MJ 网页版的网址:https://alpha.midjourney.com/
2025-03-11
Midjourney多人物在不同场景下的一致性
以下是关于 Midjourney 多人物在不同场景下一致性的相关内容: 参数局限性: 最好使用 Midjourney 生成的图像,因为其对自身输出的解读已优化,使用真实世界图像可能导致扭曲或不一致。 无法精确复制每一个小细节,AI 更倾向于关注更广泛的视觉特征。 不太适用于多人组合,通常会让组内所有人看起来相同。 实际应用案例: 分镜和漫画:在不同面板和场景中保持同一角色的一致性,不丧失角色核心身份。 角色设计:为角色创建不同版本,如不同服装、姿势或环境中的版本。 奇幻和叙事艺术:以视觉一致的方式描绘角色在旅程中的变化。 最佳结果的技巧: 使用清晰、放大的图片,其中角色面部特征清晰可见,最好正对镜头,有助于 AI 更好地解读关键面部特征。 从 cw 100 开始,若希望引入变化,可逐渐降低该值。 角色参考: Midjourney 中的 cref 是一个高级命令参数,允许用户在多张图像之间保持角色一致性。无论创作故事板还是创建不同场景中的角色变化,该命令参数能确保角色的核心视觉特征(如面部特征、发型和服装)在每次生成时得以保留。 频道说明: 您可以仅描述环境、周围环境、背景或情境,Midjourney 将努力将角色融入场景中。但可能会出现不连贯的结果,此时可尝试使用更高值的样式化(s),如 s 800。 多个角色的放置: cref 命令适用于单一主题、单一角色的图像。若计划在场景中添加多个角色,需要使用平移按钮来添加。 基于 cref 的多个角色放置到单个画布上的最佳方法是使用平移功能将新的画布与现有画布拼接在一起,每个新画布的部分都将有自己的 cref。 1. 使用 /settings 将 Remix 打开,然后选择 。 2. 选择将包含第二个字符的图像,然后使用 U 将其从网格中分离出来。 3. 寻找蓝色小箭头。⬆️⬇️⬅️➡️每个都会在现有图像中添加一条新图像。选择新角色的前进方向并输入提示及其 cref。这将缝合一条新的画布。
2025-03-06
风格一致性
以下是关于风格一致性的相关内容: Midjourney 中的风格一致性: Midjourney v6 版本提供“风格一致性”功能,用户给 Midjourney 输入一幅图像,它会根据这幅图像的风格进行创作,如素描风、油画风等。(可参考) 使用指令:垫图链接(可选择)+关键词+“sref”+图片链接+风格化参数+“v 6.0” sw 风格化参数用于控制整体的风格强度,默认为 100,数值范围为。参考多张图像风格时,url 间使用空格隔开,权重代表不同参考风格的权重。适用模型为 V6 和 Niji V6。 sref 与垫图的比较: sref 主要模仿图片风格,垫图主要模仿图片结构、元素。 音乐风格中的风格提示词: Equitable:公平和公正的音乐风格,通常具有平等和均衡的特质,用于表现公平和公正情感的音乐作品,示例为公益歌曲和社会正义主题的音乐,关联流派为 Folk、Protest Music、Rock。 Equivalent:等同和相似的音乐风格,通常具有相似和可互换的特质,用于表现相似和可互换情感的音乐作品,示例为翻唱歌曲和不同版本的音乐,关联流派为 Pop、Rock、Cover。 Erudite:博学和有学问的音乐风格,通常具有复杂和深奥的表现,用于表现学术和知识情感的音乐作品,示例为 Bach 的《赋格的艺术》,关联流派为 Classical、Baroque、Modern Classical。 Escalating:逐步增强和上升的音乐风格,通常具有递增和累积的特质,用于表现逐步增强和累积情感的音乐作品,示例为 Led Zeppelin 的《Stairway to Heaven》,关联流派为 Rock、Progressive Rock、Classical。 Esoteric:深奥和神秘的音乐风格,通常具有复杂和不易理解的特质,用于表现神秘和深奥情感的音乐作品,示例为 King Crimson 的《In the Court of the Crimson King》,关联流派为 Progressive Rock、Experimental、Avantgarde。 此外还有: Congenial:友好和谐的音乐风格,带有温暖和愉快的情感,用于表现友好和轻松氛围的音乐作品,示例为 Jack Johnson 的《Banana Pancakes》,关联流派为 Acoustic、Folk、Pop。 Consequential:重要和有影响力的音乐风格,具有深远的意义和影响力,用于表现重要事件和深刻主题的音乐作品,示例为 Bob Dylan 的《The Times They Are AChangin'》,关联流派为 Folk、Protest Music、Rock。 Considerate:体贴和细腻的音乐风格,带有温柔和关怀的情感,用于表现温柔和关怀的音乐作品,示例为 Norah Jones 的《Don't Know Why》,关联流派为 Jazz、Folk、SingerSongwriter。 Consistent:一致和连贯的音乐风格,具有稳定的结构和风格,用于表现连贯和一致性的音乐作品,示例为 AC/DC 的专辑《Back in Black》,关联流派为 Rock、Pop、Indie。 Consonant:和谐和悦耳的音乐风格,具有愉快和协调的和声,用于表现和谐和愉快的音乐作品,示例为莫扎特的《Eine kleine Nachtmusik》。
2025-02-24
图生图, 如何保持幻想生物形象一致性
要在图生图中保持幻想生物形象的一致性,可以参考以下方法: 1. 对于 Midjourney ,可以采用特定的名人或有特殊属性的人物形象,先确定好影片风格,比如皮克斯动画风格,然后确定好人物形象,如角色的发型、穿着等细节。 2. 利用 Midjourney 的新功能 Cref ,先跑一张主角的定妆照,在需要出现主角人物的地方扔进去 Cref ,以保持发型、人脸、衣服等的一致性。但需要注意的是,Midjourney 对亚洲人脸的 Cref 一致性,尤其是亚洲老人的一致性效果相对较差,且 Cref 在画面的审美和构图上有一定的破坏性,所以原则上能不用就不用,比如只有背影时,简单描述即可。 3. 生成动物形象,动物相对更容易保持一致性。
2025-02-14
Midjourney怎样生成人物侧脸照?
要在 Midjourney 中生成人物侧脸照,您可以按照以下步骤进行操作: 1. 初始图(单人画面生成结果)。 2. 找到已生成的人物纯图,提取图片链接(url)做准备工作。 3. 基于生成的构图清晰但人物失控的成图基础上,进行重绘 Vary Region。具体操作包括:框选需要被替换的人物,然后将准备好的链接,贴入框内界面 cref 后面,注意先把原始的 cref(即红色部分)删掉。 4. 连续“抽卡”后找到合适的角度,选中理想的图片,U1/U2/U3/U4 点击后就可以拿出来使用。 5. 假设需求是让配角转头营造“偷看主角”的感觉。先准备一个正脸照的链接,然后进入重绘界面圈起红色部分,更新 cref 的链接为正脸照链接。如果还是出不来,再修改原有指令词,要求将女性的侧脸照替换成正脸。坚持几轮抽卡后就可以得到需要的结果。 此外,Midjourney V6 更新了角色一致性命令“cref”。您可以添加角色参考图像,并选择一个“cw”以达到效果。Midjourney 能够从参考图像中识别的角色属性将与提示混合,从而创建出您角色的最终表现。您可以通过使用“cw N”参数(cref 权重)来大致控制转移,其中 N 的值可以从 1 到 100,默认值为 100。需要注意的是,“cw”参数不会改变角色参考图像的强度/影响力,“cw 100”的值(默认值)将捕捉整个角色,“cw 99 到cw 1”之间的值将开始捕捉较少的整个角色,仅集中于转移面部,“cw 0”的值将仅捕捉面部,大致类似于面部替换。
2025-03-17
我想用ai动漫人物唱歌
以下是一些可以帮助您实现用 AI 动漫人物唱歌的相关信息和资源: 在 AI 图像处理方面,有一些项目可以将图像进行动漫化处理,例如卡通头像制作等。 在音频与音乐制作方面,有专属歌曲创作、声音克隆、AI 唱歌等项目。比如制作专属歌曲、声音克隆/视频对口型等。 腾讯 AniPortrait 可以根据音频和静态人脸图片生成逼真的动态视频,支持多种语言、面部重绘、头部姿势控制。相关链接:https://github.com/ZejunYang/AniPortrait 、https://arxiv.org/abs/2403.17694 、https://x.com/imxiaohu/status/1772965256220045659?s=20 。 Hedra Studio 推出的 Character3 AI 支持全身动态与情感控制,能唱歌、说话甚至表演。
2025-03-12
我想要一个以自己为蓝本,包括人物和声音的数字人,用来录制课程
以下是制作以自己为蓝本,包括人物和声音的数字人用来录制课程的方法: 1. 生成数字人: 在剪映右侧窗口顶部打开“数字人”选项,选取免费且适合的数字人形象,如“婉婉青春”。选择数字人形象时会播放其声音,可判断是否需要,然后点击右下角“添加数字人”将其添加到当前视频中,软件会生成对应音视频并添加到视频轨道中,左下角会提示渲染完成时间,完成后可点击预览按钮查看效果。 2. 增加背景图片: 可删除先前导入的文本内容,为视频增加背景图片。点击左上角“媒体”菜单并点击“导入”按钮选择本地图片上传,如一张书架图片,点击图片右下角加号将其添加到视频轨道上(会覆盖数字人)。为让图片在整个视频播放时都显示,点击轨道最右侧竖线向右拖拽至与视频对齐。 3. 增加字幕: 点击文本智能字幕识别字幕,点击开始识别,软件会自动将文字智能分段并形成字幕。 4. 换脸: 若希望数字人换成自己的面孔,需要用另一个工具进行换脸。 第一步:打开谷歌浏览器,点击链接 https://github.com/facefusion/facefusioncolab 并点击 open colab 进到程序主要运行界面,在右上角点击“代码执行程序”选择“全部运行”,无需安装和付费,点击红框对应的 URL 打开操作界面。 第二步:点击“source”上传自己的照片和“target”上传之前的剪映数字人视频,保持默认参数,点击“START”生成。 第三步:等待专属数字人视频出炉。 有关数字人使用上的问题,欢迎在底部评论区留言交流。同时如果对数字人课程感兴趣,欢迎查看通往 AGI 之路 X AI 沃茨的《克隆你自己》课程: 课程内容: 在线观看第一节:https://www.bilibili.com/video/BV1yw411E7Rt/?spm_id_from=333.999.0.0
2025-03-11
有没有换人物背景相关的comfyui工作流
ComfyUI 视频背景替换工作流主要包括以下几个方面: 1. 前景处理: 使用 SAM 之前的版本来分割视频背景,提示词和阈值可根据实际情况调整。 移除背景后,使用图像遮罩复合生成灰色背景的图像批次,以在后续与背景融合时过渡更自然顺滑。灰色背景有助于柔化前景对象(如人物)的边缘,减少锯齿或硬边缘的视觉效果,改善抠图质量,为后续处理做准备,减少背景干扰,增加深度感,便于视觉检查。 在网盘里可以找到对应的模型,下载后按文件夹目录地址放置。 2. 边缘的处理: 核心是优化和改善前景对象的边缘,使其能够与新背景无缝融合,同时保持前景细节的完整性和自然性。 通过遮罩模糊生长(growMaskWithBlur),调整扩展和模糊半径来控制边缘的遮罩。 边缘处理的主要目的包括改善前景和背景之间的过渡效果、消除锯齿和不自然的硬边缘、使整体合成效果更加自然和平滑。 遮罩的白色区域(人物轮廓)是需要重点处理和优化的区域,灰色过渡区域是创造平滑过渡的关键区域。 SetLatentNoiseMask 在 latent space 中指导模型关注和处理特定区域,主要关注白色和灰色区域。 处理过程中模型在白色和灰色区域进行精细处理,包括边缘平滑、消除锯齿、调整像素等操作,特别注重前景和背景交界处的自然过渡。 最终效果是人物轮廓边缘变得更加平滑自然,减少或消除锯齿和硬边缘,在前景(人物)和新背景之间创造更自然的 blend 效果。 3. 模型与 lora: 模型部分,选一个现有和视频画风对应的即可。 lora 用了一个 animate lcm,加速生成的时间。 4. 背景: 背景部分,可以是图片或者视频,为了有视觉效果,加了一个图像的模糊,让生成的视频有种景深的效果。 5. 前景与背景的初步融合: 图像遮罩复合(ImageCompositeMasked)用于将前景(人物)精确地与新背景合并,使用遮罩决定哪些部分保留前景,哪些部分显示背景。 图像混合(ImageBlend)具有微调和平滑化、颜色协调、细节增强、灵活性等额外作用,允许对最终效果进行更精细的控制。
2025-03-11