以下是关于 AI 视频技术发展趋势的相关内容:
2023 年被视为人工智能视频领域的突破之年。年初时,面向公众的文本生成视频模型尚未出现,但在这一年中,数十种视频生成工具纷纷问世,全球已有数百万用户能够通过文字或图像提示制作短视频。然而,当前这些工具存在局限性,如大部分只能生成 3 到 4 秒的视频,视频质量参差不齐,像保持角色风格一致等难题仍待解决。要仅依靠文本提示制作出类似皮克斯电影的短片,还有很长的路要走。
过去一年在视频生成技术上的进展预示着正处于巨大变革的初期阶段,与图像生成技术的发展相似。文本生成视频的模型在持续进步,图像转视频、视频转视频等衍生技术也开始流行。
未解决的问题方面,不同的模型擅长不同的风格、运动类型和场景布局,相关产品也致力于解决诸如动画化人物头像、视觉特效和视频到视频的转换等问题。在视频制作工作流程中,谁将主导仍不明确,创作者通常需要在多个平台进行操作。
未来发展趋势包括:基于 Diffusion Model 和基于自回归模型的两大主流技术路线将继续同时发展;视频解编码未来可能被基于 token 的处理方法替代,但需要长期的模型改进;基于 token 的神经网络解码速度和 CPU 优化是当前技术发展的瓶颈;未来视频生成和显示可能融合,实现即时编辑和更高效的内容生成;基础模型的提升将促进下游研究和应用效果的提高;开源社区的创造力对技术创新和应用发展起到关键作用;不同基础模型对特定问题的适用性和表现各不相同;随着模型规模和训练数据量的增加,性能会得到提升,且数据规模和模型规模应相匹配,以达到最佳性能提升。AIGCBench 评估了控制-视频对齐、运动效果、时间一致性和视频质量这四个关键维度。
原链接:https://a16z.com/why-2023-was-ai-videos-breakout-year-and-what-to-expect-in-2024/翻译:歸藏2023年是人工智能视频领域的飞跃之年。年初,市场上还没有面向公众的文本生成视频的模型。但仅仅一年时间,我们就见证了数十种视频生成工具的问世,全球已有数百万用户通过文字或图像提示来制作短视频。目前这些工具还有局限性—大部分只能生成3到4秒的视频,视频质量参差不齐,像保持角色风格一致这样的难题还未得到解决。要想仅凭一个文本提示(或者几个提示)就制作出类似皮克斯电影的短片,我们还有很长的路要走。然而,过去一年在视频生成技术上取得的进展预示着我们正处于一场巨大变革的初期阶段,这种情况与图像生成技术的发展颇为相似。文本生成视频的模型正持续进步,并且像图像转视频、视频转视频这样的衍生技术也开始流行起来。为了更好地理解这一创新浪潮,我们追踪了目前为止该领域的重大发展、值得关注的公司,以及尚待解决的关键问题。
我们预计视频领域将展现出类似的发展趋势。如果你现在测试文本到视频和图像到视频的模型,你会发现它们各自擅长不同的风格、运动类型和场景布局(下面我们会展示两个例子)。这些模型所衍生的产品很可能在工作流程和服务的终端市场上产生进一步的差异化。此外,还有一些相关产品,并非专注于纯文本到视频的转换,而是致力于解决诸如动画化人物头像(例如HeyGen)、视觉特效(例如Wonder Dynamics)和视频到视频的转换(例如DomoAI)等问题。谁将主导视频制作的工作流程?在目前的情况下,除了视频本身的生成,制作一段优质的视频或电影通常还需要进行编辑。许多创作者目前是先在其他平台(例如Midjourney)创作图片,然后在Runway或Pika上将其制作成动画,再在Topaz中进行优化放大。随后,创作者可能会将这段视频导入Capcut或Kapwing这样的编辑平台,添加音轨和旁白(通常在Suno和ElevenLabs等其他平台生成)。
基于Diffusion Model和基于自回归模型的两大主流技术路线,继续同时发展。1、视频解编码未来可能被基于token的处理方法所替代,但这需要长期的模型改进。2、基于token的神经网络解码速度和CPU优化目前是技术发展的瓶颈。3、未来视频生成和显示可能融合,实现即时编辑和更高效的内容生成。4、基础模型的提升将促进下游研究和应用效果的提高。5、开源社区的创造力对技术创新和应用发展起到关键作用。6、不同基础模型对特定问题的适用性和表现各不相同。7、随着模型规模和训练数据量的增加,性能会得到提升。数据规模和模型规模应相匹配,以达到最佳性能提升。AIGCBench评估了四个关键维度:控制-视频对齐、运动效果、时间一致性和视频质量。