Sora 模型不同于其他同类模型的优势主要体现在以下几个方面:
[title]Sora:大型视觉模型的背景、技术、局限性和机遇综述【官方论文】[heading1]1引言自从2022年11月ChatGPT发布以来,人工智能技术的出现标志着一个重大的转变,重塑了交互方式,并深入融入日常生活和行业的各个方面[1,2]。基于这一势头,OpenAI在2024年2月发布了Sora,一个文本到视频的生成式AI模型,能够根据文本提示生成现实或想象场景的视频。与之前的视频生成模型相比,Sora的特点是能够在遵循用户文本指令的同时,生成长达1分钟的高质量视频[3]。Sora的进步体现了长期以来人工智能研究任务的实质,即赋予AI系统(或AI代理)理解和与运动中的物理世界互动的能力。这涉及到开发不仅能解释复杂用户指令,而且能将这种理解应用于通过动态和富有上下文的模拟解决现实世界问题的AI模型。图2:Sora在文本到视频生成中的示例。文本指令被给予OpenAI Sora模型,它根据指令生成三个视频。Sora展示了准确解释和执行复杂人类指令的显著能力,如图2所示。该模型能生成包含多个执行特定动作的角色以及复杂背景的详细场景。研究人员将Sora的熟练程度归因于不仅处理用户生成的文本提示,而且还能辨别场景内元素之间复杂的相互作用。Sora最引人注目的方面之一是其生成长达一分钟的视频的能力,同时保持高视觉质量和引人入胜的视觉连贯性。与只能生成短视频片段的早期模型不同,Sora的一分钟长视频创作具有进展感和从第一帧到最后一帧的视觉一致性之旅。此外,Sora的进步在于其生成具有细腻运动和互动描绘的扩展视频序列的能力,克服了早期视频生成模型所特有的短片段和简单视觉呈现的限制。这一能力代表了AI驱动创意工具向前的一大步,允许用户将文本叙述转换为丰富的视觉故事。总的来说,这些进步展示了Sora作为世界模拟器的潜力,为描绘场景的物理和上下文动态提供了细腻的见解。[3]。
[title]Sora:大型视觉模型的背景、技术、局限性和机遇综述【官方论文】[heading1]3技术[heading2]3.2数据预处理[heading3]3.2.1变化的持续时间、分辨率、宽高比Sora的一个区别特征是其能够在原始尺寸上训练、理解和生成视频及图像,如图5所示。传统方法通常会调整视频的大小、裁剪或调整宽高比,以适应一个统一标准——通常是以固定低分辨率的正方形帧的短片段[27][28][29]。这些样本通常在更宽的时间跨度上生成,并依赖于分别训练的帧插入和分辨率渲染模型作为最后一步,这在视频中造成了不一致性。利用扩散变换器架构[4](见3.2.4节),Sora是第一个拥抱视觉数据多样性的模型,并且可以在从宽屏1920x1080p视频到竖屏1080x1920p视频以及之间的任何格式上采样,而不会损害它们的原始尺寸。图5:Sora可以生成从1920x1080p到1080x1920p及其间任何尺寸或分辨率的图像。图6:Sora(右)与一个修改版的模型(左)之间的比较,后者将视频裁剪成正方形——这是模型训练中的一种常见做法——凸显了优势。在原始尺寸上训练数据显著改善了生成视频的构图和框架。经验发现,通过保持原始宽高比,Sora实现了更自然和连贯的视觉叙事。如图6所示,Sora与一个在统一裁剪的正方形视频上训练的模型之间的比较展示了明显的优势。Sora生成的视频展示了更好的框架,确保场景中完全捕捉到了主体,与正方形裁剪导致的有时被截断的视图相反。
视觉模型的规模化定律。有了LLMs的规模化定律,自然会问视觉模型的发展是否遵循类似的规模化定律。最近,Zhai等人[24]展示了,有足够训练数据的ViT模型的性能-计算前沿大致遵循(饱和)幂律。继他们之后,谷歌研究[25]提出了一种高效稳定训练22B参数ViT的方法。结果显示,使用冻结模型产生嵌入,然后在顶部训练薄层可以实现出色的性能。Sora作为一个大型视觉模型(LVM),符合这些规模化原则,揭示了文本到视频生成中的几种新兴能力。这一重大进展强调了LVMs实现类似LLMs所见进步的潜力。新兴能力。LLMs中的新兴能力是在某些规模上——通常与模型参数的大小有关——表现出的复杂行为或功能,这些行为或功能并未被开发者明确编程或预期。这些能力被称为“新兴”,因为它们源于模型在多样化数据集上的全面训练,以及其庞大的参数数量。这种组合使模型能够形成联系并做出超越简单模式识别或死记硬背的推断。通常,这些能力的出现不能通过从小规模模型的性能外推来直接预测。虽然许多LLMs,如ChatGPT和GPT-4,展示了新兴能力,但直到Sora的出现,展示类似能力的视觉模型还很少。根据Sora的技术报告,它是第一个展示确认新兴能力的视觉模型,标志着计算机视觉领域的一个重要里程碑。除了其新兴能力,Sora还展示了其他显著能力,包括遵循指令、视觉提示工程和视频理解。Sora的这些功能方面代表了视觉领域的重大进步,并将在后续部分进行探讨和讨论。