Chat with Wiki - 用AIGC生成的单镜头循环视频案例

Answer

以下是一些用 AIGC 生成的单镜头循环视频的案例：

OpenAI 的 Sora 视频生成模型：能够生成长达 1 分钟的视频，在时长、稳定性、一致性和运动幅度上表现出色。它可以根据提供的图像和提示生成视频，还能在时间上向前或向后扩展视频以产生无缝的无限循环。此外，能零镜头地改变输入视频的风格和环境，在两个输入视频之间逐渐进行插值创建无缝过渡，也能够生成图像。
Luma 视频生成工具 Dream machine 增加了尾帧生成视频的功能和循环视频生成功能。
智谱 AI 发布的 DiT 视频生成模型“智谱清影”，支持文生和图生视频，目前免费使用，加速生成需要付费。

此外，还有一些其他相关项目：

Google 的 Genie 采用 ST-transformer 架构，包括潜在动作模型、视频分词器与动力学模型，拥有 110 亿参数。
DeepMind 的 WaveNet 是一种生成模型，可以生成非常逼真的人类语音。
OpenAI 的 MuseNet 是一种生成音乐的 AI 模型，可以在多种风格和乐器之间进行组合。
ElevenLabs 的 Multilingual v2 是一种语音生成模型，支持 28 种语言的语音合成服务。
Stability 发布了 Stable Video 4D 模型，可以从视频中生成更多角度的新视频。
Pixverse 更新了 V2 版本 DiT 视频模型，支持 8 秒时长视频生成、细节和动作增强、支持最多 5 段内容一次性生成，无缝衔接。

Content generated by AI large model, please carefully verify (powered by aily)

References

2024AIGC法律风险研究报告（更新版）.pdf

4AIGC法律风险研究报告以生成方式划分，当前视频生成可分为文生视频、图生视频与视频生视频。视频生成（video generation）也涉及深度学习技术，如GANs和Video Diffusion，现在的主流生成模型为扩散模型（Diffusion model）。视频生成可用于各种领域，如娱乐、体育分析和自动驾驶。视频生成经常可以看到与语音生成（speech generation）一起使用。用于语音生成的模型可以由Tranformers提供。语音生成可用于文本到语音的转换、虚拟助手和语音克隆。这类Generative AI用于生成音频信号，如音乐、语音或其他声音。常用的技术包括循环神经网络（RNNs）、长短时记忆网络（LSTMs）、WaveNet等。[heading1]一些具有代表性的海外项目：[content]➢Sora（OpenAI）：以扩散Transformer模型为核心，能够生成长达一分钟的高保真视频。支持文本生成视频、视频生成视频、图像生成视频，被定位为世界模拟器，在文本理解方面有出色表现，还能在单个生成的视频中创建多个镜头，保留角色和视觉风格。➢Genie（Google）：采用ST-transformer架构，包括三个关键组件即潜在动作模型、视频分词器与动力学模型，拥有110亿参数，被定位为基础世界模型，可通过单张图像提示生成交互式环境。➢WaveNet（DeepMind）：一种生成模型，可以生成非常逼真的人类语音。➢MuseNet（OpenAI）：一种生成音乐的AI模型，可以在多种风格和乐器之间进行组合。➢Multilingual v2（ElevenLabs）：一种语音生成模型，支持28种语言的语音合成服务。

AIGC Weekly #82

Luma视频生成工具Dream machine增加了尾帧生成视频的功能和循环视频生成功能，这里有[我的测试](https://x.com/op7418/status/1816321699434139774)。智谱AI发布了自己的DiT视频生成模型[智谱清影](https://chatglm.cn/?redirect=/video)，目前免费使用，加速生成需要付费，支持文生和图生视频。Mistral发布了[Mistral Large 2模型](https://mistral.ai/news/mistral-large-2407/)，模型大小为123B，刚好适合单个H100推理。上下文长度扩展为128k，对十几种主流语言有更好的支持。代码与推理有了大幅提升，支持十几种编程语言。有限开源。Stability还有新活，发布[Stable Video 4D模型](https://huggingface.co/stabilityai/sv4d)。可以从视频中生成更多角度的新视频。可灵也正式结束了完全免费生成体验，开启了[付费计划](https://klingai.kuaishou.com/)。高性能模型一条为10个积分，高表现为35积分，1元10积分，目前还有充值半价活动。在上周六可灵发布了[海外版本](https://klingai.com/)，目前每天免费66个积分，无法充值，不需要测试资格。Pixverse更新了他们的[V2版本DiT视频模型](https://pixverse.ai/)。支持8秒时长视频生成、细节和动作增强、支持最多5段内容一次性生成，无缝衔接。

AIGC Weekly #59

链接：https://alpha.midjourney.com/春节唯一王炸，Open AI为狙击谷歌发布了他们的视频生成模型Sora，这个视频模型可以生成长达1分钟的视频，在时长、稳定性、一致性和运动幅度上全部碾压现在所有的视频生成模型。Sora的视频生成能力：Sora能够生成提供图像和提示作为输入的视频。Sora还能够在时间上向前或向后扩展视频。比如多个视频都是从生成的视频片段开始向后延伸的。因此，几个视频的开头都不同，但所有视频的结局都是相同的。使用此方法向前和向后扩展视频以产生无缝的无限循环。扩散模型启用了多种根据文本提示编辑图像和视频的方法。将其中一种方法SDEdit,应用于Sora。这项技术使Sora能够零镜头地改变输入视频的风格和环境。还可以使用Sora在两个输入视频之间逐渐进行插值，从而在具有完全不同主题和场景构成的视频之间创建无缝过渡。Sora还能够生成图像。通过在时间范围为一帧的空间网格中排列高斯噪声块来实现这一点。该模型可以生成各种尺寸的图像，分辨率高达2048x2048。Sora还有一些其他的特征：