多模态大模型的原理如下:
[heading2]总结多模态大模型及相关应用多模态大模型的架构和原理:基于大圆模型,能识别页面组件结构和位置绝对值信息,并与组件、文本映射。由解码器、backbone、Generator等部件组成,左侧多模态理解,右侧生成输出。stable diffusion模型原理:是生成模型,通过加噪和去噪实现图像的正向扩散和反向还原,解决潜在空间模型中的速度问题。stable diffusion的应用场景:包括带货商品图生成、模特服装展示、海报生成、装修设计等。吉梦AI和吐司平台的使用体验:吉梦AI提供AI视频生成等能力,通过简单提示词生成图像,对数字体有专项场景训练;吐司是类似的在线生成平台。模型训练:训练模型需要大量图像数据和标签化处理,后续课程有老师专门分享。AI图像与视频生成技术介绍李不李波还原stable diffusion Web UI界面并提供人性化交互:李不李波基本还原了stable diffusion的Web UI界面,提供更人性化交互,后续有老师分享从选择固定模型到快速生成图片的内容,还介绍了正向和反向提示词等模型参数。吐司具备多种AI能力:吐司和李不李波类似,有模型、在线训练、上传模型工作流等功能,可通过输入提示词生成图片,如生成了青花瓷工艺相关的图片。AI视频生成原理基于特定架构:AI视频主要基于Sara的整体架构,采用diffusion Transformer架构,以扩散模型通过随机造点、加噪和去噪得到连续图像帧,输入视频可看成若干帧图片,经处理后生成视频。Meta视频生成模型的特点:Meta的视频生成模型能生成视频和声音,可替换视频中的物体和人脸,其把diffusion架构换成纯transformer架构,基于LLAMA3训练,与diffusion在CLIP等方面有区别。
本系列课程是Deeplearning联合谷歌Gemini团队开发的免费在线课程,课程中使用了Gemini模型作为教学模型,教授大家如何使用多模态提示词与模型交互。由于课程内容中有很多在国内无法应用的部分,在其之中也缺乏了某些概念。有鉴于此,我截取了部分教程内容,并适当混合了一些入门概念。将其进行重新整理和刊发,以增强其普世价值。(如有需要,请访问[原版在线课程](https://learn.deeplearning.ai/))在这个系列中你可以学到:1.了解什么是多模态大模型2.了解Gemini系列模型3.使用Gemini API进行多模态提示词最佳实践(其提示词理念也同样也适用于完整AI产品的交互,0代码读者不必过多担心)[heading1]一、什么是多模态大模型(MLLM)[content]多模态大模型(MLLM)是一种在统一的框架下,集成了多种不同类型数据处理能力的深度学习模型,这些数据可以包括文本、图像、音频和视频等,通过整合这些多样化的数据,MLLM能够更全面地理解和解释现实世界中的复杂信息。这种多元化的数据处理能力使得MLLM在面对复杂任务时表现出更高的准确性和鲁棒性。通过综合分析不同类型的信息,这些模型能够得出更加全面和准确的结论,从而在各种应用场景中发挥重要作用。下方是一个典型MLLM架构的示意图。它包括一个编码器、一个连接器和一个LLM。可以选择性地在LLM上附加一个生成器,以生成除文本之外的更多模态。编码器接收图像、音频或视频并输出特征,这些特征经由连接器处理,使LLM能更好地理解。连接器大致可分为三类:基于投影的、基于查询的和基于融合的连接器。前两种类型采用词元级融合,将特征处理成词元,与文本词元一起发送,而最后一种类型则在LLM内部实现特征级融合。注:词元=Token
多模态技术可以从图像中提取文本,使从表情包或文档扫描中提取文本成为可能。它还能理解图像或视频中发生的事情,识别物体、场景,甚至情绪。假设有人想为一只猫买新衣服,他可以给模型提供两张猫的图片。同时,他可以提供一个文本提示,询问什么样的衣服适合这只猫。图像和文本将作为模型的输入。模型随后会给出响应,建议最适合这只猫的衣服。基于这两张图片,输入可以是交错的,意味着它可以是文本、图像、音频的混合。在这个例子中,有一个图像,然后是文本提示,接着是另一个图像。这个顺序可以改变,而且顺序很重要。课程稍后会详细讨论这一点。这是一个关于学生解决物理问题答案的例子。有一个包含问题和学生答案的图像,以及一个文本提示。模型被要求逐步推理这个问题,然后判断学生是否给出了正确答案。如果解决方案是错误的,模型需要解释错误之处并解决问题。在这个例子中,提供了一个文本提示和一个图像。在输出部分,可以看到模型的答案。值得注意的是,模型能够跨文本和图像进行推理。图像中包含文字和绘图,而模型的响应既包含文本,又包含一些LaTeX公式。