Chat with Wiki - 多模态是什么？如何使用多模态模型构建 AI 智能体

Answer

多模态是指对同一概念的多维度理解，例如人类可以边看、边交谈，还能同时听着背景音乐和察觉危险，而仅靠语言来描述和理解世界是远远不够的。拥有多模态能力的模型可以更全面地学习世界，理解人类的行为和需求，提高任务解决能力，并克服单一模态的局限性，是让 AI 能在现实世界中运行极为重要的一环。

2023 年 9 月 GPT-4v 的发布把大语言模型的竞赛带入了多模态模型（LMM - Large Multimodal Models）的时代，如 ChatGPT 可以看图说话，还能通过内置的 Dall-E 3 直接画图；几个月后 Google 的 Gemini 正式推出，直接支持了文本、视频和声音多种模态。今年 5 月，OpenAI 完成了 GPT-4 的实时听说和视频模态输入，发布了 GPT-4o，向智能体方向迈进了一大步。

多模态大模型由解码器、backbone、Generator 等部件组成，左侧多模态理解，右侧生成输出。其架构基于大圆模型，能识别页面组件结构和位置绝对值信息，并与组件、文本映射。

在应用方面，多模态模型有着广泛的用途。例如 Stable Diffusion 模型可用于带货商品图生成、模特服装展示、海报生成、装修设计等。吉梦 AI 提供 AI 视频生成等能力，吐司是类似的在线生成平台，具备多种 AI 能力。

关于模型训练，需要大量图像数据和标签化处理。AI 视频生成原理主要基于特定架构，如基于 Sara 的整体架构，采用 diffusion Transformer 架构，以扩散模型通过随机造点、加噪和去噪得到连续图像帧，输入视频可看成若干帧图片，经处理后生成视频。Meta 的视频生成模型能生成视频和声音，可替换视频中的物体和人脸，其把 diffusion 架构换成纯 transformer 架构，基于 LLAMA3 训练，与 diffusion 在 CLIP 等方面有区别。

要使用多模态模型构建 AI 智能体，需要考虑实时性，保持模型能力不变的情况下缩小参数规模，升级架构来提升性能，最好让终端也参与进来分担一部分模型的计算量。同时，让科技变简单，设计出从未有过的硬件产品或重新设计现有的产品，以适应这种毫无机械感、完全类人化的交互方式。

Content generated by AI large model, please carefully verify (powered by aily)

References

智变时代 / 全面理解机器智能与生成式 AI 加速的新工业革命

人类可以边看、边交谈，还能同时听着背景音乐和察觉危险。虽然大语言模型仅靠语言就能理解世界，但大千世界的多样性，只靠语言来描述和理解是远远不够的，因此智能不仅限于单一模态。根据伊利亚之前的观点，多模态理解虽然不是绝对必要，但确实非常有用。比如，你能亲眼看到什么是“红色”，比你用语言去描述什么是“红色”要直观的多，这就是对同一概念的多维度理解。拥有这种能力的模型可以更全面地学习世界，理解人类的行为和需求，提高任务解决能力，并克服单一模态的局限性，是让AI能在现实世界中运行极为重要一环。配图1.07：多模态解释2023年九月GPT-4v的发布把大语言模型的竞赛带入了多模态模型（LMM-Large Multimodal Models）的时代，ChatGPT可以看图说话，还能通过内置的Dall-E 3直接画图；几个月后Google的Gemini正式推出，直接就支持了文本、视频和声音多种模态。虽然Gemini模型一开始就是按照LMM方式设计训练的，但每次都能被OpenAI的产品发布捷足先登。。今年年五月，OpenAI完成了GPT-4的实时听说和视频模态输入的拼图，再一次抢在Google之前的发布了GPT-4o，一款全能模态模型OmniModel。这次OpenAI向智能体方向的研发迈进了一大步，让GPT模型有能力进入现实世界了。这种随着模型规模以及模态类型的提升，衍生出新的能力的特性，就是大家常说的泛化，也是Sam Altman提到的广泛的通用性增强。OpenAI每一次升级模型，就会让很多专用的AI模型和一批小的创业公司所做的事情毫无意义，从最早的翻译和写作工具的替代，到最新GPT-4o多模态实现的语音智能助理。

智变时代 / 全面理解机器智能与生成式 AI 加速的新工业革命

很明显OpenAI是有计划的抢先发布，因为Google在第二天的I/O 2024大会上准备宣布他们最新的研究项目Project Astra，一个类似GPT-4o全模态模型，结果研究团队拿手机精心录制的与环境实时交互的视频，让OpenAI给提前一天全部展示了，而且功能更强大，完成度更高。OpenAI会在几个月内陆续更新ChatGPT应用，通过GPT-4o让其具备Assistant Agent能力，一个能够像人类一样互动的“数字形态”全能助理；Google也计划在今年内推出Gemini Live支持类似功能，我们可以把这种能沟通还能感知环境的AI称之为智能体（Intelligent Agent）。除了端到端的多模态之外，另一个重要的特点就是实时性，之前所有的交互都是回合对话式，包括API的调用；现在我们要从文字语音聊天升级到视频直播了，智能体保持一直在线。可以想像，用流媒体的形式来消耗Token，这对算力的开销得有多大，所以大家必须保持模型能力不变的情况下缩小参数规模，升级架构来提升性能；最好让终端也参与进来分担一部分模型的计算量。让科技变简单，是技术民主化最重要的一个趋势，没有人能抵挡住这种毫无机械感、完全类人化的交互方式。用这样的思路，可以设计从未有过的硬件产品，也能重新设计现有的产品，例如多年以前的Google Glass就可以因此而复活了；因为语音交互的流畅，智能体还能用手机之外的设备来实现视觉感知，那么手机的设计也会因此而进化，触摸交互更简单，在很多情况下，都只需要放在口袋里，给你的智能体提供本地算力。

02-基础通识课

[heading2]总结多模态大模型及相关应用多模态大模型的架构和原理：基于大圆模型，能识别页面组件结构和位置绝对值信息，并与组件、文本映射。由解码器、backbone、Generator等部件组成，左侧多模态理解，右侧生成输出。stable diffusion模型原理：是生成模型，通过加噪和去噪实现图像的正向扩散和反向还原，解决潜在空间模型中的速度问题。stable diffusion的应用场景：包括带货商品图生成、模特服装展示、海报生成、装修设计等。吉梦AI和吐司平台的使用体验：吉梦AI提供AI视频生成等能力，通过简单提示词生成图像，对数字体有专项场景训练；吐司是类似的在线生成平台。模型训练：训练模型需要大量图像数据和标签化处理，后续课程有老师专门分享。AI图像与视频生成技术介绍李不李波还原stable diffusion Web UI界面并提供人性化交互：李不李波基本还原了stable diffusion的Web UI界面，提供更人性化交互，后续有老师分享从选择固定模型到快速生成图片的内容，还介绍了正向和反向提示词等模型参数。吐司具备多种AI能力：吐司和李不李波类似，有模型、在线训练、上传模型工作流等功能，可通过输入提示词生成图片，如生成了青花瓷工艺相关的图片。AI视频生成原理基于特定架构：AI视频主要基于Sara的整体架构，采用diffusion Transformer架构，以扩散模型通过随机造点、加噪和去噪得到连续图像帧，输入视频可看成若干帧图片，经处理后生成视频。Meta视频生成模型的特点：Meta的视频生成模型能生成视频和声音，可替换视频中的物体和人脸，其把diffusion架构换成纯transformer架构，基于LLAMA3训练，与diffusion在CLIP等方面有区别。