Sora 是 OpenAI 发布的一个文本到视频的生成模型,可以根据描述性的文本提示生成高质量的视频内容。从核心本质上看,Sora 是一个具有灵活采样维度的扩散变压器,有三个部分:时空压缩器、ViT 和类似 CLIP 的条件机制。Sora 将视觉数据转换成补丁,通过一个专门的网络来降低视觉数据的维度,提取一系列的时空补丁,作为变换器模型的输入令牌,然后通过预测输入噪声补丁的原始“干净”版本进行训练,结合了变换器架构,从而生成新的视频内容。
Sora是OpenAI发布的一个文本到视频的生成模型。它可以根据描述性的文本提示生成高质量的视频内容。Sora的能力标志着人工智能在创意领域的重大飞跃,它有望将简单的文本描述转变为丰富的动态视频内容。Sora模型的发布,虽然在技术界引起了广泛的关注和讨论,但目前OpenAI并没有公开发布Sora的计划,而是选择仅向少数研究人员和创意人士提供有限的访问权限,以便获取他们的使用反馈并评估技术的安全性。
从核心本质上看,Sora是一个具有灵活采样维度的扩散变压器[4],如图4所示。它有三个部分:(1)时空压缩器首先将原始视频映射到潜在空间。(2)ViT然后处理标记化的潜在表示,并输出去噪的潜在表示。(3)类似CLIP[26]的条件机制接收LLM增强的用户指令和可能的视觉提示,以指导扩散模型生成风格化或主题化的视频。经过多次去噪图4:逆向工程:Sora框架概览在这一步骤中,生成视频的潜在表示被获得,然后通过相应的解码器映射回像素空间。在本节中,我们的目标是对Sora使用的技术进行逆向工程,并讨论广泛的相关工作。
1.技术版本:Sora是一个由OpenAI开发的视频生成模型,它利用先进的人工智能技术,特别是深度学习中的扩散模型和变换器架构,来理解和生成视频内容。这里简单总结一下它的技术原理:将视觉数据转换成补丁:Sora首先将视频压缩成低维度的潜在空间表示,然后将这些表示分解成时空补丁。这种方法借鉴了大型语言模型处理文本的方式,但Sora应用在视觉数据上。视频压缩网络:Sora通过一个专门的网络来降低视觉数据的维度,这个网络将原始视频转换为时间和空间上都被压缩的潜在表示。Sora在这个潜在空间上进行训练,并生成新的视频内容。时空潜在补丁:在得到压缩的视频数据后,Sora提取一系列的时空补丁,这些补丁作为变换器模型的输入令牌。这使得Sora能够处理不同分辨率、持续时间和纵横比的视频和图像。扩展变换器用于视频生成:Sora作为一个扩散模型,通过预测输入噪声补丁的原始“干净”版本进行训练。它结合了变换器架构,这种架构在处理语言、计算机视觉和图像生成方面已经显示出了显著的扩展性。