Chat with Wiki - AIGC视频生成领域的最新技术动态

Answer

以下是 AIGC 视频生成领域的最新技术动态：

以生成方式划分，当前视频生成可分为文生视频、图生视频与视频生视频。主流生成模型为扩散模型，其涉及深度学习技术如 GANs 和 Video Diffusion。视频生成可用于娱乐、体育分析和自动驾驶等领域，且经常与语音生成一起使用。
用于语音生成的模型可以由 Transformers 提供，可用于文本到语音的转换、虚拟助手和语音克隆等。生成音频信号常用的技术包括循环神经网络（RNNs）、长短时记忆网络（LSTMs）、WaveNet 等。
一些具有代表性的海外项目：
- Sora（OpenAI）：以扩散 Transformer 模型为核心，能够生成长达一分钟的高保真视频。支持文本生成视频、视频生成视频、图像生成视频，在文本理解方面表现出色，还能在单个生成的视频中创建多个镜头，保留角色和视觉风格。
- Genie（Google）：采用 ST-transformer 架构，包括潜在动作模型、视频分词器与动力学模型，拥有 110 亿参数，可通过单张图像提示生成交互式环境。

此外，AIGC 周刊中也有相关动态：

2024 年 7 月第三周：未提及视频生成领域的具体内容。
2024 年 7 月第四周：未提及视频生成领域的具体内容。
2024 年 7 月第五周：未提及视频生成领域的具体内容。
2024 年 8 月第一周：未提及视频生成领域的具体内容。

在 AIGC 概述中提到，AIGC 主要分为语言文本生成、图像生成和音视频生成。音视频生成利用扩散模型、GANs 和 Video Diffusion 等，广泛应用于娱乐和语音生成，代表项目有 Sora 和 WaveNet。此外，AIGC 还可应用于音乐生成、游戏开发和医疗保健等领域，展现出广泛的应用前景。

Content generated by AI large model, please carefully verify (powered by aily)

References

2024AIGC法律风险研究报告（更新版）.pdf

AIGC法律风险研究报告以生成方式划分，当前视频生成可分为文生视频、图生视频与视频生视频。视频生成（video generation）也涉及深度学习技术，如GANs和Video Diffusion，现在的主流生成模型为扩散模型（Diffusion model）。视频生成可用于各种领域，如娱乐、体育分析和自动驾驶。视频生成经常可以看到与语音生成（speech generation）一起使用。用于语音生成的模型可以由Tranformers提供。语音生成可用于文本到语音的转换、虚拟助手和语音克隆。这类Generative AI用于生成音频信号，如音乐、语音或其他声音。常用的技术包括循环神经网络（RNNs）、长短时记忆网络（LSTMs）、WaveNet等。一些具有代表性的海外项目：➢Sora（OpenAI）：以扩散Transformer模型为核心，能够生成长达一分钟的高保真视频。支持文本生成视频、视频生成视频、图像生成视频，被定位为世界模拟器，在文本理解方面有出色表现，还能在单个生成的视频中创建多个镜头，保留角色和视觉风格。➢Genie（Google）：采用ST-transformer架构，包括三个关键组件即潜在动作模型、视频分词器与动力学模型，拥有110亿参数，被定位为基础世界模型，可通过单张图像提示生成交互式环境。➢

AIGC 周刊 by 歸藏

|标题|概要|图片|链接|日期||-|-|-|-|-||2024年7月第三周|1.Anthropic新增分享和后台功能<br>2.LLM分布式训练框架OpenDiLoCo<br>3.Odysseyml重构AI视频生成技术||[AIGC Weekly#80](https://waytoagi.feishu.cn/wiki/BY0DwUK3ri3W60kumZxcrC07n2c)|2024/07/15||2024年7月第四周|最近一周AIGC领域的重要动态和研究进展，主要包括：Open AI发布GPT4o-mini、Mistral发布三个小模型，还有其他一堆小模型等。||[AIGC Weekly#81](https://waytoagi.feishu.cn/wiki/RcgXws8Ghidu0zk0Zrwc3ajsnvb)|2024/07/22||2024年7月第五周|重点介绍了Meta发布的Llama3.1 405B模型，具备128K token上下文窗口及对8种语言的改进，能与领先闭源模型竞争。评估显示其在指令遵循、代码和数学能力上表现优异。同时，还提到AI音乐工具Udio的大规模更新，以及OpenAI推出的SearchGPT搜索功能。文章探讨了人工智能领域的最新动态和研究进展，强调开源AI的重要性。||[AIGC Weekly#82](https://waytoagi.feishu.cn/wiki/F6P7wiF3wiljbektL6ScgRhQnOd)|2024/07/29||2024年8月第一周|1.Google发布Gemma 2 2B和Gemini 1.5 Pro<br>2.FLUX开源图像的新标杆<br>3.Meta发布SAM 2分割模型||[AIGC Weekly#83](https://waytoagi.feishu.cn/wiki/W2G9wK60eioqqKknJWtcqAL2nmb)|2024/08/05|

2024AIGC法律风险研究报告（更新版）.pdf

1.4本章小结GenAI（即生成式AI）是一种能够从已有数据中学习并生成新的数据或内容的AI应用，利用GenAI创建的内容即AIGC（全称AI-Generated Content）。作为一种强大的技术，生成式AI能够赋能诸多领域，但也存在多重潜在的合规风险。目前，我国对AIGC的监管框架由《网络安全法》《数据安全法》及《个人信息保护法》构成，并与《互联网信息服务算法推荐管理规定》、《互联网信息服务深度合成管理规定》、《生成式人工智能服务管理暂行办法》、《科技伦理审查办法（试行）》等形成了共同监管的形势。AIGC主要分为语言文本生成、图像生成和音视频生成。语言文本生成利用马尔科夫链、RNN、LSTMs和Transformer等模型生成文本，如GPT-4和GeminiUltra。图像生成依赖于GANs、VAEs和Stable Diffusion等技术，应用于数据增强和艺术创作，代表项目有Stable Diffusion和StyleGAN 2。音视频生成利用扩散模型、GANs和Video Diffusion等，广泛应用于娱乐和语音生成，代表项目有Sora和WaveNet。此外，AIGC还可应用于音乐生成、游戏开发和医疗保健等领域，展现出广泛的应用前景。