以下是关于文生图人物一致性的相关内容:
在使用 ControlNet 进行文生图时,首先进入文生图界面填写提示词生成一张图。然后将图片拖入 ControlNet 中,预处理器选择 reference only,控制模型选择“均衡”,保真度数值越高对图片的参考越强。在没有明确指向性提示词的情况下,人物形象能保持一致,但表情、动作、服装会有随机不同程度的变化。可以通过添加关键词来给人物换装、更改服装和表情、更改动作和表情、更改姿态、环境和表情等,例如添加“红裙子”“黑色校服、哭泣”“抱手、生气”“在花丛中奔跑、开心”“红色棒球帽,时尚卫衣,在商场逛街”。通过一系列测试,这个功能在绘制系列插画、漫画、小说插图等工作时,能保持主角形象的统一,也能根据情况实时调整,后期配合 lora 潜力巨大。
另外,在 PIKA1.0 新模型中,人的一致性已经逆天,再加上其强大的语义理解和大幅度的动作,在文生图方面表现出色。
首先我们进入文生图,填写一段提示词。如下:(杰作,最好的质量),一头白发的女孩坐在绿植和鲜花的田野里,温暖的灯光,模糊的前景。设置一下常规参数,先生成一张图。接下来,我们想用这个人物作为主角生成一系列其他的图。将图片拖入到ControlNet中,预处理器选择reference only,控制模型一定要选择“均衡”。保真度数值越高,对图片的参考就越强,我们先设置为1看看。可以看到,在没有明确指向性提示词的情况下,人物形象保持了一致,但是她的表情、动作、服装产生了随机的不同程度的变化。我们可以试着通过添加关键词的方式来给人物换装,比如添加“红裙子”。同时更改服装和表情,比如添加“黑色校服、哭泣”。同时更改动作和表情,比如添加“抱手、生气”。同时更改姿态,环境和表情,比如添加“在花丛中奔跑、开心”。添加“红色棒球帽,时尚卫衣,在商场逛街”。通过一系列测试,可以发现这个功能可以让我们在绘制系列插画、漫画、小说插图等等工作时,能保持主角形象的统一,也能根据情况做实时的调整,如果后期再配合lora,潜力可以想象是非常大的。
分镜部分我就是完全根据感觉来,因为这条片子本身希望强调的是梦境,那么我希望它的主色调是蓝色,又因为需要真实感,所以我基本上都会在提示词末尾加上胶片拍摄,蓝色等关键词。整个短片的分镜我都没有设置特别复杂的元素和构图或需要实现人物一致性等,因为只有我一个人制作,时间上我也不能投入太多。我挑图基本上大感觉对了就可以,最多会用一下局部修改或扩图,不会再去PS里进行调整。[heading2]4.视频化部分[content]分两个部分,Ai图生视频部分,Runway+DreaminaRunway完成动态感要求不高但质感更趋向于实拍的画面Dreamina实现一些高动态幅度画面比如:电视机里气球漂浮、心形候鸟飞走等另外有一个部分实现时间流逝和穿越感,使用dreamina通过首尾帧来叠加剪辑[heading2]5.特效制作[content]为了呈现出不一样的效果,这一次我在视频中增加了一部分特效点云的画面。制作流程上是我通过meshy先简单做出一个3D的心形,然后同事将其导入Houdini中进行粒子化效果。非常感谢同事的协作,让我想象的画面具像化,把找到心的这个过程非常立体又酷炫地呈现了出来。[heading2]6.后期剪辑[content]剪辑部分也比较简单,我是在剪映中完成的,基本上只使用了一些转场效果,其他没有什么特殊或复杂的部分。
能明显感受到,PIKA1.0是启用了一个全新的模型,甚至我感觉不是基于旧有的迭代,而是完全重新做的一个全新的模型。强非常非常多。3D和2D的动画效果更是吊炸天。所以他们的新模型,我会多花一些篇幅和笔墨,来展现一下。首先,文生视频的质量得到了大幅度的提升。我直接写了一段:Prompt:Cinematic,happy laughing girl in office,Pixar style瞬间,匹配皮克斯水平的镜头就出来了。要知道,我只花了1分钟。这效果,我说实话,太特么吓人了。。。。。。而且,这稳定性,这神情。。。爆杀市面上所有的AI视频。再来!A cat flying a plane,Cartoon style在文生图这块,PIKA1.0的新模型稳定的令人害怕。Cinematic,extreme close-up of cars on the road in a jungle,3D rendering不规则构图的汽车行驶在道路上,这个前进的镜头依然稳定的可怕,车上的光影更是表现的极好。无敌。真的无敌。同时,有两个小技巧是,右下角第三个设置里,负面提示(Negative prompt)可以常驻:blurry,out of focus,twisted,deformed。提示词相关性别设太高,可以5~15之间,自己实测下来效果最好。再来说图生视频。图生视频这块,效果也依旧棒。放几个case。(这里因为GIF图比较大所以只能放了每秒10帧的GIF,所以看起来可能有一些卡,这并不是PIKA的原因。)说实话,Runway原本剩的唯一优势就画质好+一致性强点了。。。但是你看看现在的PIKA1.0。。。。。。人的一致性已经逆天了,再加上它强到爆的语义理解,以及幅度巨大的动作。。。。咋比啊。。。这PIKA1.0新模型的质量,特别是它最擅长的3D和3D的动画的质量,真的让人激动到无以复加。