以下是一些用 AIGC 生成的单镜头循环视频的案例:
此外,还有一些其他相关项目:
4AIGC法律风险研究报告以生成方式划分,当前视频生成可分为文生视频、图生视频与视频生视频。视频生成(video generation)也涉及深度学习技术,如GANs和Video Diffusion,现在的主流生成模型为扩散模型(Diffusion model)。视频生成可用于各种领域,如娱乐、体育分析和自动驾驶。视频生成经常可以看到与语音生成(speech generation)一起使用。用于语音生成的模型可以由Tranformers提供。语音生成可用于文本到语音的转换、虚拟助手和语音克隆。这类Generative AI用于生成音频信号,如音乐、语音或其他声音。常用的技术包括循环神经网络(RNNs)、长短时记忆网络(LSTMs)、WaveNet等。[heading1]一些具有代表性的海外项目:[content]➢Sora(OpenAI):以扩散Transformer模型为核心,能够生成长达一分钟的高保真视频。支持文本生成视频、视频生成视频、图像生成视频,被定位为世界模拟器,在文本理解方面有出色表现,还能在单个生成的视频中创建多个镜头,保留角色和视觉风格。➢Genie(Google):采用ST-transformer架构,包括三个关键组件即潜在动作模型、视频分词器与动力学模型,拥有110亿参数,被定位为基础世界模型,可通过单张图像提示生成交互式环境。➢WaveNet(DeepMind):一种生成模型,可以生成非常逼真的人类语音。➢MuseNet(OpenAI):一种生成音乐的AI模型,可以在多种风格和乐器之间进行组合。➢Multilingual v2(ElevenLabs):一种语音生成模型,支持28种语言的语音合成服务。
Luma视频生成工具Dream machine增加了尾帧生成视频的功能和循环视频生成功能,这里有[我的测试](https://x.com/op7418/status/1816321699434139774)。智谱AI发布了自己的DiT视频生成模型[智谱清影](https://chatglm.cn/?redirect=/video),目前免费使用,加速生成需要付费,支持文生和图生视频。Mistral发布了[Mistral Large 2模型](https://mistral.ai/news/mistral-large-2407/),模型大小为123B,刚好适合单个H100推理。上下文长度扩展为128k,对十几种主流语言有更好的支持。代码与推理有了大幅提升,支持十几种编程语言。有限开源。Stability还有新活,发布[Stable Video 4D模型](https://huggingface.co/stabilityai/sv4d)。可以从视频中生成更多角度的新视频。可灵也正式结束了完全免费生成体验,开启了[付费计划](https://klingai.kuaishou.com/)。高性能模型一条为10个积分,高表现为35积分,1元10积分,目前还有充值半价活动。在上周六可灵发布了[海外版本](https://klingai.com/),目前每天免费66个积分,无法充值,不需要测试资格。Pixverse更新了他们的[V2版本DiT视频模型](https://pixverse.ai/)。支持8秒时长视频生成、细节和动作增强、支持最多5段内容一次性生成,无缝衔接。
链接:https://alpha.midjourney.com/春节唯一王炸,Open AI为狙击谷歌发布了他们的视频生成模型Sora,这个视频模型可以生成长达1分钟的视频,在时长、稳定性、一致性和运动幅度上全部碾压现在所有的视频生成模型。Sora的视频生成能力:Sora能够生成提供图像和提示作为输入的视频。Sora还能够在时间上向前或向后扩展视频。比如多个视频都是从生成的视频片段开始向后延伸的。因此,几个视频的开头都不同,但所有视频的结局都是相同的。使用此方法向前和向后扩展视频以产生无缝的无限循环。扩散模型启用了多种根据文本提示编辑图像和视频的方法。将其中一种方法SDEdit,应用于Sora。这项技术使Sora能够零镜头地改变输入视频的风格和环境。还可以使用Sora在两个输入视频之间逐渐进行插值,从而在具有完全不同主题和场景构成的视频之间创建无缝过渡。Sora还能够生成图像。通过在时间范围为一帧的空间网格中排列高斯噪声块来实现这一点。该模型可以生成各种尺寸的图像,分辨率高达2048x2048。Sora还有一些其他的特征: