2024 年视频换脸技术面临一些挑战和发展趋势:
其次是可控性和一致性挑战。要将视频生成真正转化为生产力工具,需要做到production-ready,需要解决诸多问题,比如:如何让人脸在转动中仍然保持观感是同一个人没有变形?如何多个生成片段让人感觉还是同一个人物?如何让视频生成遵循指令?在实际操作中,视频生成的体感还和图片生成的早期类似,需要不断开盲盒,才能选出一个合适的视频。真正解决这个问题,还需要底层模型的进步。最后是成本问题。目前生成一段5秒视频的成本最低约为1元人民币,意味着能够基于视频生成的C端玩法依然受限,这个价位仍然制约着大规模应用的可能性。OpenAI 10月份提出sCM(Simplifying Continuous-Time Consistency Models),已经在生成速度和成本方面有学术探究的进步。2025年,视频生成的成本是否能再降低一个甚至两个数量级,将直接决定新一波AI应用的命运。原生多模态模型AI应用的基座已经搭好2023年,似乎没有太多模型在强调原生多模态这件事——除了从一开始就坚信这件事的Google,从第一代大模型就以原生多模态开始训练。2024年,原生多模态成为AI架构的主流选择。从OpenAI的GPT-4V到Anthropic的Claude-3V和xAI的Grok-1.5V,行业正从简单的模态叠加向真正的多模态融合迈进。原生多模态模型突破了传统的模态隔离方案。不同于早期将文本、图像、语音分别处理再组合的方式,新一代模型采用统一的编码器-解码器架构,在预训练阶段就完成了多模态信息的深度融合。这种方案不仅大幅提升了模型的理解能力,更重要的是实现了模态间的无缝转换和互补增强。具备多模态能力的模型能够处理更复杂的任务。
抖音的成功已经证明了:对于泛社交/娱乐向产品,音频、视频的加入会带来质的飞跃。那么对于AI陪聊的赛道,AI视频、音频技术的加入,也一定会带来内容生产和社交方式的质变。这也是为什么近期的视频技术大爆发让人兴奋不已的原因。自2023年末开始,Runway、Pika、Meta、Google等都不断推出视频生成/编辑工具,到了2024年更是有了Sora……对于Sora,和任何新生事物一样,我们会高估短期(认为马上就有成熟产品)而低估长期(不愿相信、难以想象它可能带来的颠覆)。我暂时还没有特别细的关于Sora的信息,按照已知来看:Sora仍然在“GPT-世界模型”的逻辑框架内,在想法上并没有更新的东西,但Sora的进展是迈向AGI的坚实一步。Sora本身不是目的,我们为之惊叹的“生成视频”只是皮毛;而Sora更重要意义的在于通过使用更多模态数据(图像和视频),让大模型的理解能力又有了提升;最终目标一直没变,就是AGI。刚出来的Sora确实还有一系列问题:生成的图像不稳定、速度慢、成本高……不过there is no surprise,这些都很正常。如果我们参考文生图的成熟速度的话,从最开始有可用的产品(Dall-E1&2在2022年上半年面世)出来之后,到可以商用、产生行业变革大约经历了一年半的时间;类似的,2024年将会是AI视频技术逐渐成熟并开始商用的一年。当模型开始具有比较好的多模态理解能力的时候,稍晚一点到2024下半年或2025年,也会看到AI-3D技术的突破。