Chat with Wiki - openai 发布的sora最新模型中，生成视频的提示词与一般问答提示词有什么区别或者注意事项？

Answer

Sora 是 OpenAI 于 2024 年 2 月发布的文本到视频的生成式 AI 模型。

生成视频的提示词与一般问答提示词的区别和注意事项如下：

对于视频生成，神经网络是单射函数，拟合的是文本到视频的映射。由于视频的动态性高，值域大，因此需要丰富且复杂的提示词来扩大定义域，以学好这个函数。
详细的文本提示能迫使神经网络学习文本到视频内容的映射，加强对提示词的理解和服从。
和 DALL·E 3 一样，OpenAI 用内部工具（很可能基于 GPT4-v）给视频详尽的描述，提升了模型服从提示词的能力以及视频的质量（包括视频中正确显示文本的能力）。但这会导致在使用时的偏差，即用户的描述相对较短。OpenAI 用 GPT 来扩充用户的描述以改善这个问题，并提高使用体验和视频生成的多样性。
除了文本，Sora 也支持图像或者视频作为提示词，支持 SDEdit，并且可以向前或者向后生成视频，因此可以进行多样的视频编辑和继续创作，比如生成首尾相连重复循环的视频，甚至连接两个截然不同的视频。

以下是一些 Sora 的案例提示词，如：“小土豆国王戴着雄伟的王冠，坐在王座上，监督着他们广阔的土豆王国，里面充满了土豆臣民和土豆城堡。”“咖啡馆的小地图立体模型，装饰着室内植物。木梁在上方纵横交错，冷萃咖啡站里摆满了小瓶子和玻璃杯。”“一张写有‘SORA’的写实云朵图像。”“一群萨摩耶小狗学习成为厨师的电影预告片‘cinematic trailer for a group of samoyed puppies learning to become chefs’”

Content generated by AI large model, please carefully verify (powered by aily)

References

Sora：大型视觉模型的背景、技术、局限性和机遇综述【官方论文】

自从2022年11月ChatGPT发布以来，人工智能技术的出现标志着一个重大的转变，重塑了交互方式，并深入融入日常生活和行业的各个方面[1,2]。基于这一势头，OpenAI在2024年2月发布了Sora，一个文本到视频的生成式AI模型，能够根据文本提示生成现实或想象场景的视频。与之前的视频生成模型相比，Sora的特点是能够在遵循用户文本指令的同时，生成长达1分钟的高质量视频[3]。Sora的进步体现了长期以来人工智能研究任务的实质，即赋予AI系统（或AI代理）理解和与运动中的物理世界互动的能力。这涉及到开发不仅能解释复杂用户指令，而且能将这种理解应用于通过动态和富有上下文的模拟解决现实世界问题的AI模型。图2：Sora在文本到视频生成中的示例。文本指令被给予OpenAI Sora模型，它根据指令生成三个视频。Sora展示了准确解释和执行复杂人类指令的显著能力，如图2所示。该模型能生成包含多个执行特定动作的角色以及复杂背景的详细场景。研究人员将Sora的熟练程度归因于不仅处理用户生成的文本提示，而且还能辨别场景内元素之间复杂的相互作用。Sora最引人注目的方面之一是其生成长达一分钟的视频的能力，同时保持高视觉质量和引人入胜的视觉连贯性。与只能生成短视频片段的早期模型不同，Sora的一分钟长视频创作具有进展感和从第一帧到最后一帧的视觉一致性之旅。此外，Sora的进步在于其生成具有细腻运动和互动描绘的扩展视频序列的能力，克服了早期视频生成模型所特有的短片段和简单视觉呈现的限制。这一能力代表了AI驱动创意工具向前的一大步，允许用户将文本叙述转换为丰富的视觉故事。总的来说，这些进步展示了Sora作为世界模拟器的潜力，为描绘场景的物理和上下文动态提供了细腻的见解。[3]。

Sora 案例大全

|名称|prompt|作者|日期|附件||-|-|-|-|-||Sora可以根据文本创建逼真且富有想象力的视频，但Sora也可以带来静态图像，例如这些创作，走向生活。提示：“小土豆国王戴着雄伟的王冠，坐在王座上，监督着他们广阔的土豆王国，里面充满了土豆臣民和土豆城堡。”提示2：“咖啡馆的小地图立体模型，装饰着室内植物。木梁在上方纵横交错，冷萃咖啡站里摆满了小瓶子和玻璃杯。”提示3：“一张写有“SORA”的写实云朵图像。”|提示：“小土豆国王戴着雄伟的王冠，坐在王座上，监督着他们广阔的土豆王国，里面充满了土豆臣民和土豆城堡。”提示2：“咖啡馆的小地图立体模型，装饰着室内植物。木梁在上方纵横交错，冷萃咖啡站里摆满了小瓶子和玻璃杯。”提示3：“一张写有“SORA”的写实云朵图像。”|openAI工作人员|2024/02/21|||可以根据提示词改编场景||openAI工作人员|2024/02/21|||2月21日下午最新sora狗片，由OpenAI Sora工作人员发布|一群萨摩耶小狗学习成为厨师的电影预告片"cinematic trailer for a group of samoyed puppies learning to become chefs"|openAI工作人员|2024/02/21||"a giant cathedral i

GPT、DALL·E、Sora，为什么 OpenAI 可以跑通所有 AGI 技术栈？

和DALL·E 3一样，OpenAI用内部工具（很可能基于GPT4-v）给视频详尽的描述，提升了模型服从prompt的能力，以及视频的质量（还有视频中正确显示文本的能力）。我认为这是非常关键的一点，是OpenAI的杀手锏，对于视频尤其重要。原因很简单，可以从两个角度解释：（1）神经网络是个单射函数，拟合的是文本到视频的映射。视频的动态性非常高，也就是有很大的值域，为了把这个函数学好，需要定义域也很大很丰富，这就需要复杂的prompt了。（2）详细的文本也迫使神经网络学习文本到视频内容的映射，加强对于prompt的理解和服从。另外一个细节：这种详尽的描述会导致在使用时的bias——用户的描述都相对较短。和DALL·E 3一样，OpenAI用GPT来扩充用户的描述来改善这个问题，并提高使用体验和视频生成的多样性。除了文本以外，Sora也支持图像或者视频作为prompt，支持SDEdit，并且可以向前或者向后生成视频，因此可以进行多样的视频的编辑和继续创作，比如生成一个首尾相连重复循环的视频：[0bc3eeacsaaa2qaajcothbsvaiodfeqqakia.f10002.mp4](https://bytedance.feishu.cn/space/api/box/stream/download/all/Hi3qbRbHBoC4s6x0YshcE4iNnNd?allow_redirect=1)甚至可以连接两个截然不同的视频：