以下是一些文生图模型的性能排行相关信息:
Kolors可以说是最近开源的文生图模型中最给力的一个了。从技术报告来看,改进也是很全面的,更强的中文文本编码器、机造的高质量文本描述、人标的高质量图片、强大的中文渲染能力,以及巧妙的noise schedule解决高分辨率图加噪不彻底的问题。可以说是目前主流的文生图训练技巧都用上了,实测效果也确实很不错。在看到Kling视频生成的强大表现,不得不让人赞叹快手的技术实力。
能明显感受到,PIKA1.0是启用了一个全新的模型,甚至我感觉不是基于旧有的迭代,而是完全重新做的一个全新的模型。强非常非常多。3D和2D的动画效果更是吊炸天。所以他们的新模型,我会多花一些篇幅和笔墨,来展现一下。首先,文生视频的质量得到了大幅度的提升。我直接写了一段:Prompt:Cinematic,happy laughing girl in office,Pixar style瞬间,匹配皮克斯水平的镜头就出来了。要知道,我只花了1分钟。这效果,我说实话,太特么吓人了。。。。。。而且,这稳定性,这神情。。。爆杀市面上所有的AI视频。再来!A cat flying a plane,Cartoon style在文生图这块,PIKA1.0的新模型稳定的令人害怕。Cinematic,extreme close-up of cars on the road in a jungle,3D rendering不规则构图的汽车行驶在道路上,这个前进的镜头依然稳定的可怕,车上的光影更是表现的极好。无敌。真的无敌。同时,有两个小技巧是,右下角第三个设置里,负面提示(Negative prompt)可以常驻:blurry,out of focus,twisted,deformed。提示词相关性别设太高,可以5~15之间,自己实测下来效果最好。再来说图生视频。图生视频这块,效果也依旧棒。放几个case。(这里因为GIF图比较大所以只能放了每秒10帧的GIF,所以看起来可能有一些卡,这并不是PIKA的原因。)说实话,Runway原本剩的唯一优势就画质好+一致性强点了。。。但是你看看现在的PIKA1.0。。。。。。人的一致性已经逆天了,再加上它强到爆的语义理解,以及幅度巨大的动作。。。。咋比啊。。。这PIKA1.0新模型的质量,特别是它最擅长的3D和3D的动画的质量,真的让人激动到无以复加。
为了全面比较Kolors与其他模型的生成能力,我们构建了包含人工评估、机器评估的全面评测内容。在相关基准评测中,Kolors具有非常有竞争力的表现,达到业界领先水平。我们构建了一个包含14种垂类,12个挑战项,总数量为一千多个prompt的文生图评估集KolorsPrompts。在KolorsPrompts上,我们收集了Kolors与市面上常见的SOTA级别的开源/闭源系统的文生图结果,并进行了人工评测和机器评测。[heading3]人工评测[content]我们邀请了50个具有图像领域知识的专业评估人员对不同模型的生成结果进行对比评估,为生成图像打分,衡量维度为:画面质量、图文相关性、整体满意度三个方面。Kolors在整体满意度方面处于最优水平,其中画面质量显著领先其他模型。|模型|整体满意度平均分|画面质量平均分|图文相关性平均分||-|-|-|-||Adobe-Firefly|3.03|3.46|3.84||Stable Diffusion 3|3.26|3.5|4.2||DALL-E 3|3.32|3.54|4.22||Midjourney-v5|3.32|3.68|4.02||Playground-v2.5|3.37|3.73|4.04||Midjourney-v6|3.58|3.92|4.18||Kolors|3.59|3.99|4.17|所有模型结果取自2024.04的产品版本