以下是关于生图评测的相关内容:
评价维度:
案例分析:
|维度|解释||-|-||提示词响应程度|语义理解:是否准确理解了提示词的含义,并完整呈现内容?<br>细节遵循:在细节上是否遵循了提示词的要求,例如颜色、数量、位置等?||真实感与逼真度|物理规律:是否符合物理规律,例如光照、重力等?<br>人体结构:人体结构是否准确,没有出现明显的错误?||风格化能力|风格理解:是否准确理解了提示词所要求的风格?<br>风格多样性:是否能够生成具有不同风格的图片?||创意性与艺术性|美感:是否符合美学原则,例如构图、色彩搭配等?<br>想象力:是否能给出出乎意料的作品||图像质量|清晰度与细节:图片是否清晰,细节是否丰富?是否存在模糊、噪点或其他影响观感的瑕疵?<br>分辨率:图片的分辨率是否足够,是否适合不同的应用场景?|
目的:测词,看看MJ模型有没有把功夫熊猫训练进去,并测试其角色、风格的一致性情况。|prompt|效果评估||-|-||DreamWorks Animation,A Po Panda<br>A PO's(DreamWorks Animation A Po Panda)|词力强,动作可控||DreamWorks Animation,Kung Fu Panda,|词力极强,但因为kungfu词多为武术动作||Kung Fu Panda,|词力强,但动作因为kungfu词多为武术动作||Po Panda,|1/4概率出阿宝,动作自然可控||Master Tigress,photography by DreamWorks Animation Kung Fu Panda,<br>***,DreamWorks Animation Kung Fu Panda characters,|画功夫熊猫里的其他角色效果很差,角色不像||photography by John Stevenson,panda,|无关||dynamic shot,|加动态摄影,方便roll视频||Panda A Po(DreamWorks Animation A Po Panda),hands in a'prayer'pose|出双手合十效果||A huge bear paw from Panda A Po(DreamWorks Animation A Po Panda),Blue sky background,--ar 16:9|如来神掌prompt|我在写绘画prompt的时候,一直遵循的理念是“若无必要,勿增实体”比如使用(DreamWorks Animation,A Po Panda)就能出来功夫熊猫的电影画面效果,那就不会再加电影感、4K...等等词。提前测试“词力”:清楚知道每个词的影响,用迭代思维(MVP,再根据画面缺什么补什么)写prompt,对于后面提高生图效率真的蛮大的。
在画面控制力上,我们希望佣金可能复杂多的人物主体和画面要求来测试Imagen3和MJ的对比。熟悉MJ或者SD、Flux的朋友都知道,Prompts越长,模型产生混淆和错误的可能性就越高,但也代表我们有希望得到更准确的结果。所以这次测试我们就走一个极端:尽量加长测试提示词。整体测试环境:第一组测试:场景1:一个充满神秘感的图书馆,光线昏暗,充满年代感。人物1(老年男性):人物2(年轻女性):背景:输入英文:场景1/Imagen3:Imagen3给出的结果相当让人震惊,画面内容、服饰、姿势都完整还原,并且兼顾了构图。最能体现语意遵循细节的是背景女性“正要从高处取下一本书,身体稍稍向后倾斜,她伸出一只手,仿佛害怕书会掉落。”这个描述,吃惊的是Imagen3再现这个细节姿势非常到位,而且整体画面被安排在一个相当合理的构图中,四张图像非常稳定,具备一致性特征。场景1/Midjourney:反观Midjourney出现的问题就比较多了,你是不是想问:哎,平时用MJ生成人物肖像不是很逼真,很稳嘛?其实经常用MJ的朋友对这个情况都不会陌生:在多主体人物和描述词下,MJ的画面质量会下降非常明显,这一点它一直是不如Flux等模型的。可以看到:女性的身材比例明显被压缩(强制控构图),并且“从高处取下书”这个细节根本没出现。场景2:设定一个动态的、戏剧性的场景,让两个人物的动作和服装能充分展现。人物1(女性):