多模态大模型与图像、视频生成相关知识如下:
[heading2]总结多模态大模型及相关应用多模态大模型的架构和原理:基于大圆模型,能识别页面组件结构和位置绝对值信息,并与组件、文本映射。由解码器、backbone、Generator等部件组成,左侧多模态理解,右侧生成输出。stable diffusion模型原理:是生成模型,通过加噪和去噪实现图像的正向扩散和反向还原,解决潜在空间模型中的速度问题。stable diffusion的应用场景:包括带货商品图生成、模特服装展示、海报生成、装修设计等。吉梦AI和吐司平台的使用体验:吉梦AI提供AI视频生成等能力,通过简单提示词生成图像,对数字体有专项场景训练;吐司是类似的在线生成平台。模型训练:训练模型需要大量图像数据和标签化处理,后续课程有老师专门分享。AI图像与视频生成技术介绍李不李波还原stable diffusion Web UI界面并提供人性化交互:李不李波基本还原了stable diffusion的Web UI界面,提供更人性化交互,后续有老师分享从选择固定模型到快速生成图片的内容,还介绍了正向和反向提示词等模型参数。吐司具备多种AI能力:吐司和李不李波类似,有模型、在线训练、上传模型工作流等功能,可通过输入提示词生成图片,如生成了青花瓷工艺相关的图片。AI视频生成原理基于特定架构:AI视频主要基于Sara的整体架构,采用diffusion Transformer架构,以扩散模型通过随机造点、加噪和去噪得到连续图像帧,输入视频可看成若干帧图片,经处理后生成视频。Meta视频生成模型的特点:Meta的视频生成模型能生成视频和声音,可替换视频中的物体和人脸,其把diffusion架构换成纯transformer架构,基于LLAMA3训练,与diffusion在CLIP等方面有区别。
模态生成器MG_X一般用于生成不同的模态来输出。当前的工作一般使用现成的扩大模型(Latent diffusion model),例如Stable Diffusion用于图像生成,Zeroscope用于视频生成,AudioLDM-2用于音频生成。输出Projector输出的特征H_x作为条件输入,在去噪的过程中,用于生成MM的内容。训练过程中,gt content首先转换为latent feature z_0,由预训练好的VQA模型。然后噪声\epsilon加到z_0上,获得noise latent feature z_t,预训练好的UNet用于计算条件损失,通过最小化loss来优化参数。
例如,一个图像上的大杯拿铁标签在视频中可能会随着物体的转动而消失,而在3D模型中,物体的形状是恒定的。因此,你会发现如果我们的模型既支持3D生成,又支持视频生成,那么它就可以实现图文编辑以及具有强一致性的视频生成。我们认为接下来,Open AI会尝试把图片、视频、3D变为一个自然空间。在这种情况下,我们不需要去区分当前的对象是哪种模态;只需要训练一个模型就能实现文生3D或者文生视频,实际上Google的VideoPoet已经在这个方向上有很多尝试,但其分辨率还不够高。编者按:我们对于Google的VideoPoet及相关生成模型进行的详细的分析,信息补全请戳👉[一文纵览文生图/文生视频技术发展路径与应用场景|Z研究第1期](https://waytoagi.feishu.cn/docx/XCiodvb1koHXO1x2X9ac6tiJnfe?from=from_copylink)人类与外界的交互是并行的,我们不仅仅是简单地接收信息然后回应,而是同时进行信息的接收、处理和回应。Transformer架构的多模态模型给机器提供了一种像人类一样与世界互动的新机会,让AI也有这种输入和输出的并行能力,这将推动实现AI与人世界的无缝沟通。另一个,更前沿的概念是杨立昆(Yann LeCun)提出的世界模型,从学术研究的角度来看,这可能将会成为近一年值得关注的研究点。编者按: