以下是 AIGC 视频生成领域的最新技术动态:
此外,AIGC 周刊中也有相关动态:
在 AIGC 概述中提到,AIGC 主要分为语言文本生成、图像生成和音视频生成。音视频生成利用扩散模型、GANs 和 Video Diffusion 等,广泛应用于娱乐和语音生成,代表项目有 Sora 和 WaveNet。此外,AIGC 还可应用于音乐生成、游戏开发和医疗保健等领域,展现出广泛的应用前景。
AIGC法律风险研究报告以生成方式划分,当前视频生成可分为文生视频、图生视频与视频生视频。视频生成(video generation)也涉及深度学习技术,如GANs和Video Diffusion,现在的主流生成模型为扩散模型(Diffusion model)。视频生成可用于各种领域,如娱乐、体育分析和自动驾驶。视频生成经常可以看到与语音生成(speech generation)一起使用。用于语音生成的模型可以由Tranformers提供。语音生成可用于文本到语音的转换、虚拟助手和语音克隆。这类Generative AI用于生成音频信号,如音乐、语音或其他声音。常用的技术包括循环神经网络(RNNs)、长短时记忆网络(LSTMs)、WaveNet等。一些具有代表性的海外项目:➢Sora(OpenAI):以扩散Transformer模型为核心,能够生成长达一分钟的高保真视频。支持文本生成视频、视频生成视频、图像生成视频,被定位为世界模拟器,在文本理解方面有出色表现,还能在单个生成的视频中创建多个镜头,保留角色和视觉风格。➢Genie(Google):采用ST-transformer架构,包括三个关键组件即潜在动作模型、视频分词器与动力学模型,拥有110亿参数,被定位为基础世界模型,可通过单张图像提示生成交互式环境。➢
|标题|概要|图片|链接|日期||-|-|-|-|-||2024年7月第三周|1.Anthropic新增分享和后台功能<br>2.LLM分布式训练框架OpenDiLoCo<br>3.Odysseyml重构AI视频生成技术||[AIGC Weekly#80](https://waytoagi.feishu.cn/wiki/BY0DwUK3ri3W60kumZxcrC07n2c)|2024/07/15||2024年7月第四周|最近一周AIGC领域的重要动态和研究进展,主要包括:Open AI发布GPT4o-mini、Mistral发布三个小模型,还有其他一堆小模型等。||[AIGC Weekly#81](https://waytoagi.feishu.cn/wiki/RcgXws8Ghidu0zk0Zrwc3ajsnvb)|2024/07/22||2024年7月第五周|重点介绍了Meta发布的Llama3.1 405B模型,具备128K token上下文窗口及对8种语言的改进,能与领先闭源模型竞争。评估显示其在指令遵循、代码和数学能力上表现优异。同时,还提到AI音乐工具Udio的大规模更新,以及OpenAI推出的SearchGPT搜索功能。文章探讨了人工智能领域的最新动态和研究进展,强调开源AI的重要性。||[AIGC Weekly#82](https://waytoagi.feishu.cn/wiki/F6P7wiF3wiljbektL6ScgRhQnOd)|2024/07/29||2024年8月第一周|1.Google发布Gemma 2 2B和Gemini 1.5 Pro<br>2.FLUX开源图像的新标杆<br>3.Meta发布SAM 2分割模型||[AIGC Weekly#83](https://waytoagi.feishu.cn/wiki/W2G9wK60eioqqKknJWtcqAL2nmb)|2024/08/05|
1.4本章小结GenAI(即生成式AI)是一种能够从已有数据中学习并生成新的数据或内容的AI应用,利用GenAI创建的内容即AIGC(全称AI-Generated Content)。作为一种强大的技术,生成式AI能够赋能诸多领域,但也存在多重潜在的合规风险。目前,我国对AIGC的监管框架由《网络安全法》《数据安全法》及《个人信息保护法》构成,并与《互联网信息服务算法推荐管理规定》、《互联网信息服务深度合成管理规定》、《生成式人工智能服务管理暂行办法》、《科技伦理审查办法(试行)》等形成了共同监管的形势。AIGC主要分为语言文本生成、图像生成和音视频生成。语言文本生成利用马尔科夫链、RNN、LSTMs和Transformer等模型生成文本,如GPT-4和GeminiUltra。图像生成依赖于GANs、VAEs和Stable Diffusion等技术,应用于数据增强和艺术创作,代表项目有Stable Diffusion和StyleGAN 2。音视频生成利用扩散模型、GANs和Video Diffusion等,广泛应用于娱乐和语音生成,代表项目有Sora和WaveNet。此外,AIGC还可应用于音乐生成、游戏开发和医疗保健等领域,展现出广泛的应用前景。