Chat with Wiki - 什么是多模态模型

Answer

多模态模型是指能够处理和融合多种不同模态信息的模型，例如视觉和语言双模态。以下为您介绍一些相关的多模态模型：

CogAgent-18B：这是基于 CogVLM-17B 改进的开源视觉语言模型，拥有 110 亿视觉参数和 70 亿语言参数，支持 1120*1120 分辨率的图像理解，在 CogVLM 功能基础上具备 GUI 图像的 Agent 能力。代码链接：CogVLM&CogAgent，模型下载：Huggingface、魔搭社区、Swanhub。
CogVLM-17B：强大的开源视觉语言模型（VLM），基于对视觉和语言信息之间融合的理解，能在不牺牲任何 NLP 任务性能的情况下，实现视觉语言特征的深度融合，是目前多模态权威学术榜单上综合成绩第一的模型，在 14 个数据集上取得了 state-of-the-art 或者第二名的成绩。代码链接：Huggingface，模型下载：魔搭社区。
Visualglm-6B：开源的支持图像、中文和英文的多模态对话语言模型，语言模型基于ChatGLM-6B，具有 62 亿参数；图像部分通过训练BLIP2-Qformer构建起视觉模型与语言模型的桥梁，整体模型共 78 亿参数。代码链接：VisuaGLM，模型下载：Huggingface、魔搭社区。
RDM（Relay Diffusion Model）：级联扩散模型，可以从任意给定分辨率的图像快速生成，而无需从白噪声生成。代码链接：RDM。

Gemini 模型本身也是多模态的，其展示了无缝结合跨模态能力的独特能力，例如从表格、图表或图形中提取信息和空间布局，以及语言模型的强大推理能力，在识别输入中的细微细节、在空间和时间上聚合上下文，以及在一系列视频帧和/或音频输入上应用这些能力方面也表现出强大的性能。下面的部分提供了对模型在不同模态（图像、视频和音频）上的更详细评估，以及模型在图像生成和跨不同模态的信息组合能力方面的定性示例。

Content generated by AI large model, please carefully verify (powered by aily)

References

智谱·AI 开源模型列表

，我们推出了具有视觉和语言双模态的模型。|模型|介绍|代码链接|模型下载||-|-|-|-||CogAgent-18B|基于CogVLM-17B改进的开源视觉语言模型。CogAgent-18B拥有110亿视觉参数和70亿语言参数，支持1120*1120分辨率的图像理解，在CogVLM功能的基础上，具备GUI图像的Agent能力。|[CogVLM&CogAgent](https://github.com/THUDM/CogVLM)|[Huggingface](https://huggingface.co/THUDM/CogVLM)|[魔搭社区](https://modelscope.cn/models/ZhipuAI/cogagent-chat/summary)|[Swanhub](https://swanhub.co/ZhipuAI/cogagent-chat-hf)|始智社区||CogVLM-17B|强大的开源视觉语言模型（VLM）。基于对视觉和语言信息之间融合的理解，CogVLM可以在不牺牲任何NLP任务性能的情况下，实现视觉语言特征的深度融合。我们训练的CogVLM-17B是目前多模态权威学术榜单上综合成绩第一的模型，在14个数据集上取得了state-of-the-art或者第二名的成绩。||[Huggingface](https://huggingface.co/THUDM/cogvlm-chat-hf)|[魔搭社区](https://modelscope.cn/models/AI-ModelScope/cogvlm-chat/summary)||Visualglm-6B|VisualGLM-6B是一个开源的，支持图像、中文和英文的多模态对话语言模型，语言模型基于[ChatGLM-6B](https://github.com/THUDM/ChatGLM-6B)，具有62亿参数；图像部分通过训练[BLIP2-Qformer](https://arxiv.org/abs/2301.12597)构建起视觉模型与语言模型的桥梁，整体模型共78亿参数。|[VisuaGLM](https://github.com/THUDM/VisualGLM-6B)|[Huggingface](https://huggingface.co/THUDM/visualglm-6b)|[魔搭社区](https://modelscope.cn/models/ZhipuAI/visualglm-6b/summary)|

智谱·AI 开源模型列表

，我们推出了具有视觉和语言双模态的模型。|模型|介绍|代码链接|模型下载||-|-|-|-||RDM|Relay Diffusion Model：级联扩散模型，可以从任意给定分辨率的图像快速生成，而无需从白噪声生成。|[RDM](https://github.com/THUDM/RelayDiffusion)||

Gemini report 中文翻译

Gemini模型本身就是多模态的。这些模型展示了无缝结合跨模态能力的独特能力（例如从表格、图表或图形中提取信息和空间布局），以及语言模型的强大推理能力（例如在数学和编码方面的最新性能），如图5和12中的示例所示。这些模型在识别输入中的细微细节、在空间和时间上聚合上下文，以及在一系列视频帧和/或音频输入上应用这些能力方面也表现出强大的性能。下面的部分提供了对模型在不同模态（图像、视频和音频）上的更详细评估，以及模型在图像生成和跨不同模态的信息组合能力方面的定性示例。