Chat with Wiki - comfy ui 九宫格生图保持人物一致性的原理

Answer

Comfy UI 九宫格生图保持人物一致性的原理主要基于 PuLID 技术，具体如下：

PuLID 是一种用于在文本生成图像时自定义图像中人物或物体身份（ID）的新技术，它结合了两个不同的模型分支（Lightning T2I 分支和标准扩散模型），引入了两种损失（对比对齐损失和精确 ID 损失）。
- Lightning T2I 分支是一个快速、高效的文本到图像生成模型。
- 标准扩散模型是常见的、生成高质量图像的模型。
- 对比对齐损失帮助模型学习将输入的文本和生成的图像内容对齐，使生成的图像更符合文本描述。
- 精确 ID 损失确保生成的图像中的特定身份特征（比如人物的脸部特征）与目标 ID 一致。
此外，在保持人物一致性方面，还有一些操作步骤：
- 生成图像（提示词加入分割描述，让一张图生成多张同空间小图）。
- 通过目标图像不断的重复生成，获取更多一致性的角色图像，下载分类（按照视角不同分类）。
- 上传图像，调用 prefer option set 命令，先写命令名称（一个视角操作一次），再放入该视角的照片（4 - 5 张）。
- 放开角色限制生成图像，在确认好的图像上进行局部重绘，框选头部，在原来的命令下加入—快捷命令名称，确认生成即可。

同时，Eva - CLIP 也是相关的技术：

Eva - CLIP 是一种基于对比学习的视觉文本模型，将文本描述和图像内容映射到一个共享的嵌入空间。
- 对比学习架构：使用对比学习方法，将图像和文本嵌入到一个共享的空间，通过最大化匹配图像和文本对的相似度，同时最小化不匹配对的相似度，学习到图像和文本之间的关联。
- 强大的特征提取能力：编码器擅长提取图像中的细节特征，并将其转换为有意义的嵌入向量，用于下游任务。
- 多模态应用：能够处理图像和文本两种模态，广泛应用于多模态任务中，如生成、检索、标注等。

其应用场景包括图像生成、图像检索、图像标注等。Eva - CLIP 编码器通常与深度神经网络结合使用，如卷积神经网络（CNN）用于图像特征提取，Transformer 网络用于处理文本描述。

项目地址：https://github.com/ToTheBeginning/PuLID 相关资源：

instant ID 脸部特征抓取得比 pulid 好，放在最后一步重绘，先 pulid，再 instantID
- https://pan.baidu.com/s/1Tro9oQM85BEH7IQ8gVXKsg?pwd=cycy
- 工作流与模型地址：https://pan.quark.cn/s/2a4cd9bb3a6b
- 说明文档：https://xiaobot.net/post/6544b1e8 - 1d90 - 4373 - 94cf - 0249d14c73c8
- 测试案例：1567_1710206655.mp4

Content generated by AI large model, please carefully verify (powered by aily)

References

Comfyui PuLID人物一致

PuLID是一种新的技术，用于在文本生成图像时自定义图像中的人物或物体的身份（ID），不需要进行复杂的调整。它结合了两个不同的模型分支（Lightning T2I分支和标准扩散模型），引入了两种损失（对比对齐损失和精确ID损失），以确保在保持原始模型效果的同时，高精度地自定义ID。简单来说，PuLID可以让你在生成图像时更精确地定制人物或物体的身份，将特定ID(例如人脸)嵌入到预训练的文本到图像模型中,而不会破坏模型的原始能力。这允许生成特定人物的图像,同时仍然能够使用文本提示修改属性、样式、背景等1.模型分支：Lightning T2I分支：这是一个快速、高效的文本到图像生成模型。标准扩散模型：这是一个常见的、生成高质量图像的模型。PuLID把这两个模型结合起来，利用它们各自的优势。1.两种损失：对比对齐损失：这个损失帮助模型学习将输入的文本和生成的图像内容对齐，使生成的图像更符合文本描述。精确ID损失：这个损失确保生成的图像中的特定身份特征（比如人物的脸部特征）与目标ID一致。通过结合这两个模型分支和引入这两种损失，PuLID可以在生成图像时更准确地自定义身份，并且生成的图像在插入ID前后保持一致性。项目地址https://github.com/ToTheBeginning/PuLIDinstant ID脸部特征抓取得比pulid好，放在最后一步重绘,先pulid，再instantIDhttps://pan.baidu.com/s/1Tro9oQM85BEH7IQ8gVXKsg?pwd=cycy工作流与模型地址https://pan.quark.cn/s/2a4cd9bb3a6b说明文档https://xiaobot.net/post/6544b1e8-1d90-4373-94cf-0249d14c73c8

左侧原图，右侧是生成的图片A girl,happy,urban,realistic--cref[url]--cw 100--style raw[heading2]作者：张余[content]发布此功能前的保持一致性教程YouTube大神TAO最新的教程，原理也很简单，就是把已经确定好的角色生成一个固定成一个快捷命令，每一个角度一个快捷命令，再通过vray重绘调用命令重回人物头部。1.生成图像（提示词加入分割描述，让一张图生成多张同空间小图）2.通过目标图像不断的重复生成，获取更多一致性的角色图像，下载分类（按照视角不同分类）。3.上传图像，调用prefer option set命令，先写命令名称（一个视角操作一次），再放入该视角的照片（4-5张）。4.放开角色限制生成图像，在确认好的图像上进行局部重绘，框选头部，在原来的命令下加入—快捷命令名称，确认生成即可。[1567_1710206655.mp4](https://bytedance.feishu.cn/space/api/box/stream/download/all/O3Hkb2yqHoCfvaxKqV4cHQgTnph?allow_redirect=1)[heading2]作者：天天向上[content][heading2]作者:CYCHENYUE[content]

Comfyui PuLID人物一致

Eva-CLIP是一种基于对比学习的视觉文本模型，它将文本描述和图像内容映射到一个共享的嵌入空间。这使得模型能够理解和生成与文本描述高度相关的图像内容，或根据图像生成相应的文本描述。Eva-CLIP编码器特别擅长提取图像中的细节特征，并将这些特征转换为有意义的嵌入向量，用于下游任务，如图像生成或分类。主要特点1.对比学习架构:Eva-CLIP使用对比学习方法，将图像和文本嵌入到一个共享的空间。通过最大化匹配图像和文本对的相似度，同时最小化不匹配对的相似度，模型能够高效地学习到图像和文本之间的关联。2.强大的特征提取能力:Eva-CLIP编码器在提取图像细节方面表现优异，能够生成高质量的图像嵌入。这些嵌入可以捕捉到图像的各种细节特征，使得下游任务（如图像生成）能够更精确地再现参考图像的特征。3.多模态应用:由于Eva-CLIP能够处理图像和文本两种模态，它被广泛应用于多模态任务中，如图像生成、图像检索、图像标注等。其强大的多模态特性使得它在需要结合图像和文本信息的应用中非常有效。应用场景1.图像生成:在图像生成任务中，Eva-CLIP编码器可以根据参考图像提取细节特征，并将这些特征嵌入到生成模型中，以生成与参考图像高度相似的新图像。2.图像检索:Eva-CLIP可以用于从大规模图像数据库中检索与给定文本描述最匹配的图像，或从文本描述中检索相应的图像。3.图像标注:Eva-CLIP还可以根据图像内容生成相应的文本描述，应用于自动图像标注等任务。技术细节Eva-CLIP编码器通常与深度神经网络结合使用，如卷积神经网络（CNN）用于图像特征提取，Transformer网络用于处理文本描述。通过对比学习，这些网络能够协同工作，将多模态数据映射到一个共同的嵌入空间。