按照语义生成图像的方法主要有以下几种:
此外,GPT - 4 也具备根据详细说明生成图像的能力,例如生成“一只青蛙跳进银行,问出纳员:你有免费的荷叶吗?出纳员回答:没有,但我们提供低利息的池塘升级贷款”的 2D 图像,以及“一个由浮岛、瀑布和桥梁组成的幻想景观,天空中有一只飞龙和一个位于最大岛上的城堡”的 3D 模型,并能完成添加、重新定位、重新着色对象和改变飞龙轨迹等任务。
条件输入(Conditioning):右侧的条件输入包括语义图、文本、已有图像等,表示生成图像时的上下文信息。在ComfyUI中,这部分通过多个节点模块来实现,比如:文本提示(Text Prompt):用户可以通过输入文本作为生成图像的主要条件,这是最常见的生成方式。语义图(Semantic Map):用于输入图像的语义信息,比如让模型生成特定区域的物体或场景。这个功能可以通过“条件控制”节点来实现。已有图像(Images):如果你有一张参考图像,ComfyUI允许你将其作为条件输入,以指导最终生成的图像。CLIP模型:图中的文本、语义图等条件信息在生成过程中通过CLIP模型(或其他文本-图像对齐模型)进行编码,并通过交叉注意力机制引导图像的生成。在ComfyUI中,你可以通过文本输入节点、图像输入节点等调整这些条件,甚至对条件的权重进行调整,以达到特定的生成效果。[heading3]5.编码器(Encoder EEE)和解码器(Decoder DDD)[content]编码器(E):在生成过程中,编码器将输入图像映射到潜在空间。在ComfyUI中,编码器可以是预训练的扩散模型的一部分,用户可以通过加载不同的模型或自定义节点来实现编码过程。解码器(D):当去噪过程完成后,解码器将潜在表示映射回像素空间,生成输出图像。这部分也通过模型推理模块来实现。在ComfyUI中,用户可以通过“图像输出”节点得到最终的生成结果。
[title]报告:GPT-4通用人工智能的火花[heading1]2.多模态和跨学科组合[heading2]2.2视觉2.2.2根据详细说明生成图像(「a la Dall-E」)为了进一步测试GPT-4生成和操作图像的能力,我们测试了它遵循详细说明创建和编辑图形的程度。这个任务不仅需要生成技能,还需要解释、组合和空间技能。第一个示例指示模型生成一个2D图像,其描述为「一只青蛙跳进银行,问出纳员:你有免费的荷叶吗?出纳员回答:没有,但我们提供低利息的池塘升级贷款」。我们尝试了多次生成图像,每次生成都与关键对象青蛙、出纳员、银行和两个文本相匹配。我们选择了最具视觉吸引力的版本。受标准图像生成工作流程的启发,我们要求GPT-4通过添加更多的细节来放大图像。GPT-4添加了一个银行标志、一些窗户、一辆汽车、一个交通灯、几朵云,并让青蛙拿着一朵花。最后,我们要求GPT-4执行各种任务,例如根据现有对象添加一些对象,重新着色一些对象和更改一些对象的z顺序。GPT-4都正确地完成了所有任务。最终结果如图下图左侧所示,提示信息如附录图B.4所示。我们的第二个例子是试图使用Javascript生成一个3D模型。我们用提示语「一个由浮岛、瀑布和桥梁组成的幻想景观,天空中有一只飞龙和一个位于最大岛上的城堡」来对GPT-4发出指令。与2D实验类似,我们要求GPT-4以各种方式修改3D模型,如添加、重新定位、重新着色对象和改变飞龙的轨迹等。同样,GPT-4正确完成了许多任务。最终结果如下图右侧所示,提示语如图B.5所示。它其实是一个3D动画,有多只飞龙在岛屿上空盘旋。
图像[编辑](https://platform.openai.com/docs/api-reference/images/create-edit)端点允许您通过上传蒙版来编辑和扩展图像。遮罩的透明区域指示应编辑图像的位置,提示应描述完整的新图像,而不仅仅是擦除区域。此端点可以启用类似[我们DALL·E预览应用程序中的编辑器的](https://labs.openai.com/editor)体验。提示:一个阳光充足的室内休息区,带有一个包含火烈鸟的游泳池上传的图片和遮罩必须是小于4MB的正方形PNG图片,并且必须具有相同的尺寸。生成输出时不使用遮罩的非透明区域,因此它们不一定需要像上面的示例那样与原始图像匹配。