2023 年是 AI 视频的突破年,年初市场上还没有面向公众的文本生成视频的模型,但一年时间内就见证了数十种视频生成工具的问世,全球已有数百万用户通过文字或图像提示来制作短视频。不过目前这些工具存在局限性,如大部分只能生成 3 到 4 秒的视频,视频质量参差不齐,像保持角色风格一致这样的难题还未解决。
Sora 是由 OpenAI 开发的视频生成模型,其技术原理包括:将视觉数据转换成补丁,通过专门的网络降低视觉数据维度,提取时空潜在补丁,扩展变换器用于视频生成。通俗来说,就是把视频和图片变成小方块,然后用这些小方块来学习和创造新的视频内容。
从交互方式来看,当前 AI 视频生成主要可分为文本生成视频、图片生成视频、视频生成视频三种形式。一些视频生成方法是先生成静态关键帧图像,然后构建为视频序列,也存在直接端到端生成视频的技术,如微软 NUWA-XL 是通过逐步生成视频关键帧,形成视频的“粗略”故事情节,然后通过局部扩散模型递归地填充附近帧之间的内容。
原链接:https://a16z.com/why-2023-was-ai-videos-breakout-year-and-what-to-expect-in-2024/翻译:歸藏2023年是人工智能视频领域的飞跃之年。年初,市场上还没有面向公众的文本生成视频的模型。但仅仅一年时间,我们就见证了数十种视频生成工具的问世,全球已有数百万用户通过文字或图像提示来制作短视频。目前这些工具还有局限性—大部分只能生成3到4秒的视频,视频质量参差不齐,像保持角色风格一致这样的难题还未得到解决。要想仅凭一个文本提示(或者几个提示)就制作出类似皮克斯电影的短片,我们还有很长的路要走。然而,过去一年在视频生成技术上取得的进展预示着我们正处于一场巨大变革的初期阶段,这种情况与图像生成技术的发展颇为相似。文本生成视频的模型正持续进步,并且像图像转视频、视频转视频这样的衍生技术也开始流行起来。为了更好地理解这一创新浪潮,我们追踪了目前为止该领域的重大发展、值得关注的公司,以及尚待解决的关键问题。
1.技术版本:Sora是一个由OpenAI开发的视频生成模型,它利用先进的人工智能技术,特别是深度学习中的扩散模型和变换器架构,来理解和生成视频内容。这里简单总结一下它的技术原理:将视觉数据转换成补丁:Sora首先将视频压缩成低维度的潜在空间表示,然后将这些表示分解成时空补丁。这种方法借鉴了大型语言模型处理文本的方式,但Sora应用在视觉数据上。视频压缩网络:Sora通过一个专门的网络来降低视觉数据的维度,这个网络将原始视频转换为时间和空间上都被压缩的潜在表示。Sora在这个潜在空间上进行训练,并生成新的视频内容。时空潜在补丁:在得到压缩的视频数据后,Sora提取一系列的时空补丁,这些补丁作为变换器模型的输入令牌。这使得Sora能够处理不同分辨率、持续时间和纵横比的视频和图像。扩展变换器用于视频生成:Sora作为一个扩散模型,通过预测输入噪声补丁的原始“干净”版本进行训练。它结合了变换器架构,这种架构在处理语言、计算机视觉和图像生成方面已经显示出了显著的扩展性。通过这些技术原理,Sora能够根据文本提示生成高质量的视频,支持多种分辨率和纵横比,并且能够捕捉视频内容的复杂动态。这种能力使得Sora不仅在内容创造方面有巨大的潜力,也在模拟真实世界和数字世界方面展现出前所未有的能力。1.大白话版本:想象一下,如果我们能把看到的一切——不管是电影中的精彩场景,还是手机里的随手拍——都变成一个个小方块(就像乐高积木一样),然后通过这些小方块来创造全新的视频。这就是OpenAI的Sora做的事情。它把视频和图片变成了一堆堆的小方块,然后用这些小方块来学习和创造新的视频内容。
本文作者Bay,写于23.09月底,关注公众号“Bay的设计奥德赛”可接受及时推送AI生成视频发展到什么程度了,效果如何?有哪些可用的产品方案?网上炫酷的效果如何实现?AI视频的应用场景和案例有哪些?本着对以上问题的探索,我开启了AI视频系列的探索。上篇将着重介绍技术发展概况和应用场景思考。[heading2]一.技术发展概况[content]长期以来,人们对AI视频技术应用的认知停留在各种“换脸”和视频特效上。随着AI图像领域的技术发展,AI视频技术也逐渐取得了突破。本节内容结合Claude、Perplexity查询、项目论文整理而成。[heading2]1.1生成方法[content]从交互方式来看,当前AI视频生成主要可分为文本生成视频、图片生成视频、视频生成视频三种形式。一些视频生成方法是先生成静态关键帧图像,然后构建为视频序列。也存在直接端到端生成视频的技术,无需进行多阶段处理即可生成视频,如基于GAN、VAE、Transformer的方法。微软NUWA-XL:通过逐步生成视频关键帧,形成视频的“粗略”故事情节,然后通过局部扩散模型(Local Diffusion)递归地填充附近帧之间的内容