评测模型生图好坏的标准主要包括以下几个方面:
需要注意的是,模型生图的效果并非完全由这些标准决定,还可能受到其他因素的影响,需要不断尝试和学习以获得更好的生图效果。
1.首页-模型\帖子\排行榜:发布了其他大手子炼成的模型、图片。不同的模型有checkpoint和lora两种不同的标签,有些模型的标签后面还有第二个XL的标签,这是属于SDXL这个新模型的意思。点击后可以看模型的详细信息。模型详情信息的下方,是用这个模型生成的图片,俗称返图区。1.基础模型:生图必需的,英文名Checkpoint。任何生图操作必须要选定一个checkpoint模型才能开始操作。注意,checkpoint区别于lora,这两个东西在模型广场都是混着展示的。checkpoint必选,lora可选可不选,任何主题的作图需求,都可以试着在模型广场上搜索或者浏览,然后收集到模型库中用于生图。1.lora:低阶自适应模型,你可以理解为checkpoint的小插件,生图的时候lora可有可无。但是lora的价值还是很明显的,基本上你看到一些精细的控制,如面部、材质、物品等等细节都常见于用相应的lora进行控制。旁边的数值是lora的权重。1.ControlNet:控制图片中一些特定的图像,可以用于控制人物姿态,或者是生成特定文字、艺术化二维码等等。也是高阶技能,后面再学不迟。1.VAE:是个编码器,功能类似于我们熟悉的滤镜,调整生图的饱和度。无脑选择右侧截图中840000这个即可。1.Prompt提示词:想要AI生成的内容(不绝对有效,需要多费功夫学习,哪怕从照抄别人开始)。2.负向提示词Negative Prompt:想要AI避免产生的内容(不绝对有效,也需要费功夫学,哪怕从照抄别人开始)。1.图生图:上传图片之后,sd将根据你的图片和你选择的模型以及输入的prompt等等信息进行重绘。重绘幅度越大,输出的图和输入的图差别就越大。
设置文生图提示词:大模型:majicmixRealistic_v6.safetensors正向提示词:(a character sheet of a woman from different angles with a grey background:1.4),auburn hair,eyes open,cinematic lighting,Hyperrealism,depth of field,photography,ultra highres,photorealistic,8k,hyperrealism,studio lighting,photography,负向提示词:EasyNegative,canvasframe,canvas frame,eyes shut,wink,blurry,hands,closed eyes,(easynegative),((((ugly)))),(((duplicate))),((morbid)),((mutilated)),out of frame,extra fingers,mutated hands,((poorly drawn hands)),((poorly drawn face)),((bad art)),blurry,(((mutation))),(((deformed))),blurry,((bad anatomy)),(((bad proportions))),((extra limbs)),cloned face,(((disfigured))),gross proportions,(malformed limbs),((missing arms)),((missing legs)),((floating limbs)),((disconnected limbs)),((malformed hands)),((missing fingers)),worst quality,((disappearing arms)),((disappearing legs)),(((extra arms))),(((extra legs))),(fused fingers),(too many fingers),(((long neck))),canvas frame,((worst quality)),((low quality)),lowres,sig,signature,watermark,username,bad,immature,cartoon,anime,3d,painting,b&w,设置一下参数:迭代步数:50采样方法:DPM++2M Karras尺寸:1328×800px出图!15个不同角度的人物图片,大概看下来基本就是同一个人,没毛病。
准确生成文字的能力一直是文生图模型的一大难题。DALL-E 3和SD3已经有了很强的英文文字生成能力。但是,目前还未有模型具有中文文字的生成能力。中文文字的生成有两点困难:一是相比于英文呢,中文汉字的集合太大,而且纹理结构更复杂;二是缺少中文文字的图文对数据。为了提升中文文字的生成能力,Kolors从两个方面准备数据。一是选择50000个最常用的汉字,机造生成了一个千万级的中文文字图文对数据集。但是机造数据毕竟真实性不足。因此,第二方面又实用OCR和MLLM生成了海报、场景文字等真实中文文字数据集,大概有百万量级。作者观察到,虽然使用机造数据一开始中文文字的生成能力的真实性比较差,但是在结合高质量真实数据之后,真实性大大提升,而且即使是真实数据中不存在的汉字的真实性也得到了提升。[heading3]图片视觉质量[content]作为一个生图模型,好不好看,自然才是最关键的指标。Kolors从数据和训练方法两方面入手,提升图片视觉质量。在网络结构方面,Kolors没有进行改动,仍旧使用与SDXL一致的UNet结构。