目前在应用文生图方面,以下几个模型效果较好:
但不同模型也有各自的特点和不足,例如:
您可以根据具体需求和使用体验选择适合的模型。
即使与当前最流行的文生图应用Midjourney相比,DALL・E 3也能打个平手甚至超越Midjourney。而且与Midjourney相比,DALL・E 3不需要用户自己掌握复杂的Prompt编写知识,使用起来门槛更低。DALL・E 3 vs.Midjourney文生图效果。prompt:这幅插画描绘了一颗由半透明玻璃制成的人心,矗立在惊涛骇浪中的基座上。一缕阳光穿透云层,照亮了心脏,揭示了其中的小宇宙。地平线上镌刻着一行醒目的大字「Find the universe within you」。这一模型的发布引发了不小的轰动,也再次巩固了OpenAI技术领头羊的形象。一时间,所有人都很好奇,这么炸裂的效果是怎么做到的?不过,令人失望的是,当时OpenAI并没有透露技术细节,就像之前发布GPT-4时一样。不过,一个月后,OpenAI还是给了大家一些惊喜。在一份篇幅达22页的论文中,他们阐述了针对DALL・E 3所做的改进。论文要点包括:模型能力的提升主要来自于详尽的图像文本描述(image captioning);他们训练了一个图像文本描述模型来生成简短而详尽的文本;他们使用了T5文本编码器;他们使用了GPT-4来完善用户写出的简短提示;他们训练了一个U-net解码器,并将其蒸馏成2个去噪步骤;文本渲染仍然不可靠,他们认为该模型很难将单词token映射为图像中的字母除了论文之外,OpenAI还公布了一个重要消息:DALL・E 3已经正式上线ChatGPT,Plus用户和Enterprise用户都可以使用。以下是机器之心的试用效果:
定主题:你需要生成一张什么主题、什么风格、表达什么信息的图。选择基础模型Checkpoint:按照你需要的主题,找内容贴近的checkpoint。一般我喜欢用模型大佬麦橘、墨幽的系列模型,比如说麦橘写实、麦橘男团、墨幽人造人等等,效果拔群。选择lora:在你想要生成的内容基础上,寻找内容重叠的lora,帮助你控制图片效果及质量。可以多看看广场上做得好看的帖子里面,他们都在用什么lora。ControlNet:控制图片中一些特定的图像,可以用于控制人物姿态,或者是生成特定文字、艺术化二维码等等。也是高阶技能,后面再学不迟。局部重绘:下篇再教,这里不急。设置VAE:无脑选择前面提到的840000这个即可。Prompt提示词:用英文写你想要AI生成的内容,不用管语法也不要写长句,仅使用单词和短语的组合去表达你的需求。单词、短语之间用英文半角逗号隔开即可。负向提示词Negative Prompt:用英文写你想要AI避免产生的内容,也是一样不用管语法,只需单词和短语组合,中间用英文半角逗号隔开。采样算法:这玩意儿还挺复杂的,现在我一般选DPM++2M Karras比较多。当然,最稳妥的是留意checkpoint的详情页上,模型作者是否有推荐采样器,使用他们推荐的采样器会更有保障。采样次数:要根据你采样器的特征来,一般我选了DPM++2M Karras之后,采样次数在30~40之间,多了意义不大还慢,少了出图效果差。尺寸:看你喜欢,看你需求。
|排序(从高到低)|模型|特点(优缺)||-|-|-||1|Imagen 3|真实感满分,指令遵从强||2|Recraft|真实感强,风格泛化很好,指令遵从较好(会受风格影响)||3|Midjourney|风格化强,艺术感在线,但会失真,指令遵从较差||4|快手可图|影视场景能用,风格化较差||5|Flux.1.1[Pro]|真实感强,需要搭配Lora使用||6|文生图大模型V2.1L(美感版)|影视感强,但会有点油腻,细节不够,容易糊脸||7|Luma|影视感强,但风格单一,糊||8|美图奇想5.0|AI油腻感重||9|腾讯混元|AI油腻感重,影视感弱,空间结构不准||10|SD 3.5 Large|崩|