Sora 与 Stable Diffusion 有关联。自 2021 年以来,AI 领域出现了能解释人类指令的生成式语言和视觉模型,如 CLIP 和 Stable Diffusion。Stable Diffusion 采用变压器架构和潜在扩散技术解码文本输入生成图像。2023 年出现了商业文本到图像产品,如 Stable Diffusion 等。Sora 是一个重大突破,能根据人类指令生成长达一分钟的视频。从技术架构上,Stable Diffusion 3 后续版本有希望成为 Sora 的开源平替。此外,在一些观点中,Sora 就在 Stable Diffusion 这样的文生图模型之外加了一个时间维度,虽然方法类似,但数据高维很多,实现工程难度大。
自2021年以来,AI领域的一个重要焦点是能够解释人类指令的生成式语言和视觉模型,即多模态模型。例如,CLIP[18]是一种开创性的视觉-语言模型,它将变压器架构与视觉元素相结合,使其能够在大量的文本和图像数据集上进行训练。通过从一开始就整合视觉和语言知识,CLIP可以在多模态生成框架中充当图像编码器。另一个值得注意的例子是Stable Diffusion[19],这是一个多才多艺的文本到图像AI模型,以其适应性和易用性而受到赞誉。它采用变压器架构和潜在扩散技术来解码文本输入,并生成各种风格的图像,进一步展示了多模态AI的进步。随着2022年11月ChatGPT的发布,我们在2023年见证了商业文本到图像产品的出现,如Stable Diffusion[19]、Midjourney[20]、DALL-E 3[21]。这些工具使用户能够用简单的文本提示生成高分辨率和高质量的新图像,展示了AI在创意图像生成方面的潜力。然而,从文本到图像过渡到文本到视频由于视频的时间复杂性而具有挑战性。尽管工业界和学术界做出了许多努力,但大多数现有的视频生成工具,如Pika[22]和Gen-2[23],仅限于生成几秒钟的短视频片段。在这种背景下,Sora代表了一个重大突破,类似于ChatGPT在NLP领域的影响。Sora是第一个能够根据人类指令生成长达一分钟的视频的模型,标志着对生成式AI研究和开发产生深远影响的里程碑。为了便于轻松访问最新的视觉生成模型进展,最新的作品已被汇编并提供在附录和我们的GitHub中。
1、直接使用百度网盘里面准备好的资源,可以规避掉90%的坑;2、如果一直报显存溢出问题,可以调低帧数或增加novram启动参数;3、针对云部署实战部分,基础依赖模型权重有两个models–laion–CLIP-ViT-H-14-laion2B-s32B-b79K和ViT-L-14.pt,需要放到指定路径下;4、加入「AIGCmagic社区」群聊,一起交流讨论,涉及AI视频、AI绘画、Sora技术拆解、数字人、多模态、大模型、传统深度学习、自动驾驶等多个不同方向,可私信或添加微信号:【m_aigc2022】,备注不同方向邀请入群!![heading1]——总结——[content]在Sora发布之后,似乎在这之前的所有视频生成模型都已黯淡无光,难以与之争锋!然而Stable Video Diffusion作为开源项目,我们可以在自己的机器上自由创作而无需充值,这也是其独特优势!从技术角度看,SVD生成的视频画质非常清晰,帧与帧之前的过渡也非常的自然,无论是背景闪烁的问题,还是人物一致性的保持都能够得到妥善解决!尽管目前只能生成最多4秒的视频,与Sora生成的60s视频差距很远,但是SVD还在不断迭代,相信其终将再次强大!!!同时,我们会持续关注SVD技术及前沿视频生成技术,尝试多种不同的部署微调方式,介绍更多视频生成的技术模型,更多精彩内容会在后续文章中放出,敬请期待!!!
1.Sora的背后没有物理引擎,有的是DiT架构的Diffusion Transformer,大家能看到的对场景模拟的真实性,是Transformer在大数据量的情况下的强大刻画能力的体现,和大语言模型涌现出逻辑推理等能力是类似的现象。对比来看,可以理解成Sora就在Stable Diffusion()这样的文生图模型之外,加了一个时间维度。而Patches这样的降维方法,已经是业内比较成熟的方法。视频因为是运动的,讲故事能力更强,所以观感上让我们很震撼,但从机器来看,既然每一个像素就有几维向量,再加一个时间复杂度维度,并不是那么本质的变化。当然,虽然方法类似,数据还是高维了很多,很多问题要解决,而且实现起来工程难度是非常大的。2.“世界模拟”和“通用人工智能AGI”是愿景。怎么理解OpenAI把Sora定义为“世界模拟”?网上有很多讨论,认为Sora做世界模拟不现实,这样的讨论我觉得就偏颇了,我倾向于认为“世界模拟”是一个非常好的项目愿景,和“通用人工智能”作为整体的愿景一样起到非常正面的作用。愿景既是也不是产品目标,就像“人人平等”一样,是努力的方向,重要的是引发的思考,带来的激励作用,以及能聚集的资源,这两个都是具有号召力的愿景,而且不是完全达不到,所以是非常好的。3.Stable Diffusion 3后续版本有希望成为Sora的开源平替。从目前公开的信息来看,这两个产品从技术架构上有相当的类似性,都是基于DiT架构,而且SD 3承诺了会继续开源(目前还没有),Stable也说会具有视频和3D的能力,和之前的SD版本相比,这是一个新的技术的基础,后续有更多的升级的空间。值得关注。