Sora 是 OpenAI 推出的文本到视频模型。它能根据用户输入的描述性提示快速生成视频,还可对现有视频进行编辑和扩展。Sora 具有以下特点:
- 功能强大:能生成长达 1 分钟的视频,支持多种分辨率和比例;可生成具有丰富细节、连贯性的视频,包含复杂场景、多个角色及特定动作;能模拟现实世界的物理规则,具备新兴的仿真能力,如生成动态摄像机运动的视频等;还可生成可变大小的图像。
- 工作原理独特:将视频数据转换为空间时间补丁,训练降低视觉数据维度的网络,采用扩散模型并使用与 GPT 模型相似的 Transformer 架构。
- 多种应用:如 remix(重混)、re-cut(重新切割)、loop(循环剪辑)、blend(混合)、style presets(风格预设)等。
- 具有一定局限性:可能难以准确模拟复杂场景的物理原理、理解因果关系,存在空间细节混淆等问题。
Sora 的发布具有重要意义,它在视频生成领域有独特优势,为创作者提供了更多可能,也可能带来一些挑战和影响,如假视频泛滥、影响影视行业等。目前该模型只对 ChatGPT Plus 和 Pro 用户开放。