以下是关于 AI 图生视频前沿的相关信息:
在近半年闭源产品趋势方面:
其他动态包括:
在 2024 年国内外 AI 企业竞争方面:
这半年来,除传统的文生视频、图生视频能力迭代外,当前的主要技术发展还围绕着通过转绘改变画风、视频内人物识别和替换方向。1.在服务头部创作者方面,各家产品未来会逐渐转向编辑器能力增强,强化视频细节可控性,并逐渐将剪辑、音效生成匹配等后期制作任务智能化,逐步转变当前AI创作者跨N个产品完成创作的现状。2.影视后期方向,未来可以将动捕演员的表演直接转化为虚拟角色,大大提高特效制作效率。3.专业领域,创作者未来可以快速通过草图分镜验证效果。例如动画制作产品Fable在今年4月试水了Prism Beta功能。用户可以制作简单的几何图形串联的动画逐帧渲染实现更丰富的动画效果。但目前效果还不够成熟。4.随着实时生成能力的进一步提升,生成成本的下降,AI实验性艺术在博物馆、展览等互动应用将会增多。5.在C端大众消费侧,看好AI视频在小说、网文阅读、短情景剧等内容消费方向发挥潜力;另外人物识别和替换也可以衍生电商平台虚拟试衣间能力。6.Viggle、DomoAI的产品中的模板套用能力若以更低成本开放在短视频产品中,可能会带来短视频平台效果模板新的爆发周期。
[Krea用那些开放的API做了自己的AI视频功能](https://x.com/krea_ai/status/1849393245887062082)。支持对任何视频输入提示词进行延长。应该是用视频最后一帧做的图生视频,不过也省事很多了,他接入的几家都没做。千问周畅、面壁智能核心成员秦禹嘉、零一万物核心成员黄文灏都加入了字节,有钱真好啊,经得起折腾,无限投入。[Runway发布Act-One功能](https://x.com/runwayml/status/1848785907723473001),支持将现实视频的人物表情和动作迁移到生成的视频上,效果非常好,目前已经全量开放。[Ideogram发布Ideogram Canvas](https://x.com/ideogram_ai/status/1848757699606983143)。可以在无限画布上对生成的图片进行编辑,比如扩图、局部重绘,以及最基本的生成功能。[Meta的图像分割模型SAM更新了2.1](https://github.com/facebookresearch/sam2/blob/main/demo/README.md)。大幅加强了相似的物体和小物体的分割和识别效果。
**中国开源项目在今年赢得全球粉丝,并且已经成为积极开源贡献者。**其中几个模型在个别子领域中脱颖而出,成为强有力的竞争者。DeepSeek在编码任务中已成为社区的最爱,其组合了速度、轻便性和准确性而推出的deepseek-coder-v2。阿里巴巴最近发布了Qwen-2系列,社区对其视觉能力印象深刻,从具有挑战性的OCR任务到分析复杂的艺术作品,都完成的非常好。在较小的一端,清华大学的自然语言处理实验室资助了OpenBMB项目,该项目催生了MiniCPM项目。这些是可以在设备上运行的小型<2.5B参数模型。它们的2.8B视觉模型在某些指标上仅略低于GPT-4V。2024年是AI图像视频迅速发展的一年,这个赛道竞争异常激烈国外Stability AI发布的Stable Video Diffusion,是第一个能够从文本提示生成高质量、真实视频的模型之一,并且在定制化方面取得了显著的进步。并且在今年3月,他们推出了Stable Video 3D,该模型经过第三个对象数据集的微调,可以预测三维轨道。OpenAI的Sora能够生成长达一分钟的视频,同时保持三维一致性、物体持久性和高分辨率。它使用时空补丁,类似于在变压器模型中使用的令牌,但用于视觉内容,以高效地从大量视频数据集中学习。除此之外,Sora还使用了其原始大小和纵横比的视觉数据进行训练,从而消除了通常会降低质量的裁剪和缩放。Google DeepMind的Veo将文本和可选图像提示与嘈杂压缩视频输入相结合,通过编码器和潜在扩散模型处理它们,以创建独特的压缩视频表示。然后系统将此表示解码为最终的高分辨率视频。