以下是关于最新的文生视频/图生视频能力的介绍:
PIKA1.0 启用了全新的模型,文生视频质量大幅提升,例如输入“Cinematic,happy laughing girl in office,Pixar style”的 Prompt 能瞬间生成匹配皮克斯水平的镜头,且稳定性和神情表现出色,爆杀市面上所有的 AI 视频。在文生图方面,新模型也极其稳定。同时,图生视频效果很棒,人的一致性逆天,语义理解强,动作幅度大。此外,还有一些小技巧,如在右下角第三个设置里,负面提示(Negative prompt)可以常驻“blurry,out of focus,twisted,deformed”,提示词相关性别设 5 - 15 之间效果较好。
这半年来,除传统的文生视频、图生视频能力迭代外,主要技术发展还围绕着通过转绘改变画风、视频内人物识别和替换方向。在服务头部创作者方面,未来产品会强化编辑器能力和视频细节可控性,并智能化后期制作任务。影视后期方向,可将动捕演员表演转化为虚拟角色提高特效制作效率。专业领域,创作者能通过草图分镜验证效果。在 C 端大众消费侧,AI 视频有望在小说、网文阅读、短情景剧等内容消费方向发挥潜力,人物识别和替换可衍生电商平台虚拟试衣间能力。Viggle、DomoAI 的产品中的模板套用能力若低成本开放在短视频产品中,可能带来新的爆发周期。
Stable Video Diffusion 1.1 新模型以及 stablevideo.com 开始内测,清晰度、控制方式和效果都有很大提升,目前提供文生视频、图生视频两种方式,文生视频先生成 4 张图像选一张用于生成视频,图生视频提供几种控制方式(仅开放了一部分),另外目前提供 17 种风格。
能明显感受到,PIKA1.0是启用了一个全新的模型,甚至我感觉不是基于旧有的迭代,而是完全重新做的一个全新的模型。强非常非常多。3D和2D的动画效果更是吊炸天。所以他们的新模型,我会多花一些篇幅和笔墨,来展现一下。首先,文生视频的质量得到了大幅度的提升。我直接写了一段:Prompt:Cinematic,happy laughing girl in office,Pixar style瞬间,匹配皮克斯水平的镜头就出来了。要知道,我只花了1分钟。这效果,我说实话,太特么吓人了。。。。。。而且,这稳定性,这神情。。。爆杀市面上所有的AI视频。再来!A cat flying a plane,Cartoon style在文生图这块,PIKA1.0的新模型稳定的令人害怕。Cinematic,extreme close-up of cars on the road in a jungle,3D rendering不规则构图的汽车行驶在道路上,这个前进的镜头依然稳定的可怕,车上的光影更是表现的极好。无敌。真的无敌。同时,有两个小技巧是,右下角第三个设置里,负面提示(Negative prompt)可以常驻:blurry,out of focus,twisted,deformed。提示词相关性别设太高,可以5~15之间,自己实测下来效果最好。再来说图生视频。图生视频这块,效果也依旧棒。放几个case。(这里因为GIF图比较大所以只能放了每秒10帧的GIF,所以看起来可能有一些卡,这并不是PIKA的原因。)说实话,Runway原本剩的唯一优势就画质好+一致性强点了。。。但是你看看现在的PIKA1.0。。。。。。人的一致性已经逆天了,再加上它强到爆的语义理解,以及幅度巨大的动作。。。。咋比啊。。。这PIKA1.0新模型的质量,特别是它最擅长的3D和3D的动画的质量,真的让人激动到无以复加。
这半年来,除传统的文生视频、图生视频能力迭代外,当前的主要技术发展还围绕着通过转绘改变画风、视频内人物识别和替换方向。1.在服务头部创作者方面,各家产品未来会逐渐转向编辑器能力增强,强化视频细节可控性,并逐渐将剪辑、音效生成匹配等后期制作任务智能化,逐步转变当前AI创作者跨N个产品完成创作的现状。2.影视后期方向,未来可以将动捕演员的表演直接转化为虚拟角色,大大提高特效制作效率。3.专业领域,创作者未来可以快速通过草图分镜验证效果。例如动画制作产品Fable在今年4月试水了Prism Beta功能。用户可以制作简单的几何图形串联的动画逐帧渲染实现更丰富的动画效果。但目前效果还不够成熟。4.随着实时生成能力的进一步提升,生成成本的下降,AI实验性艺术在博物馆、展览等互动应用将会增多。5.在C端大众消费侧,看好AI视频在小说、网文阅读、短情景剧等内容消费方向发挥潜力;另外人物识别和替换也可以衍生电商平台虚拟试衣间能力。6.Viggle、DomoAI的产品中的模板套用能力若以更低成本开放在短视频产品中,可能会带来短视频平台效果模板新的爆发周期。
【Zho】Stable Video Diffusion 1.1新模型以及stablevideo.com开始内测了,清晰度、控制方式和效果都有很大提升,之前注册过stabilityai会员的应该会受到内测申请,大家记得查看邮件目前提供文生视频、图生视频两种方式,文生视频是先生成4张图像,选一张用于生成视频,图生视频提供几种控制方式(仅开放了一部分),另外目前提供17种风格这是初测的2段,生成的视频为24帧1024*576,耗时1.5min,我的初步评价是:Crazy!!!之前加过membership的应该都会收到邀请邮件可以检查下邮箱我是自己去申请之后看邮箱才发现已经有邀请了[17631_1706891837.mp4](https://bytedance.feishu.cn/space/api/box/stream/download/all/HpBtb1jvMoBKjrxYT3wcTnCAn4e?allow_redirect=1)而且这次开放的这个网站界面也舒服比之前任何stabilityai的网站都好网站里现在好作品真不少清晰度是真的高很多应该都是用MJ V6原图生成效果很好[17669_1706896276.mp4](https://bytedance.feishu.cn/space/api/box/stream/download/all/O8QBb7WWUo7ZSbxnIQEcFtwmnWc?allow_redirect=1)[17662_1706895848.mp4](https://bytedance.feishu.cn/space/api/box/stream/download/all/FdMbbJ4vgoQiyoxbxmZc9xfEn4d?allow_redirect=1)