知識ベースとの対話 - 多模态模型与多模态问答

回答

多模态模型与多模态问答相关内容如下：

Gemini 模型在图像理解方面表现出色，在多个基准测试中处于领先地位。它在高级对象识别、细粒度转录、空间理解和多模态推理等任务中展现出强大性能，在 zero-shot QA 评估中优于其他模型，在学术基准测试中如 MathVista 和 InfographicVQA 有显著改进，在 MMMU 基准测试中取得最好分数。

智谱·AI 推出了具有视觉和语言双模态的模型，如 CogAgent-18B、CogVLM-17B 和 Visualglm-6B。CogAgent-18B 拥有 110 亿视觉参数和 70 亿语言参数，支持高分辨率图像理解，具备 GUI 图像的 Agent 能力。CogVLM-17B 是多模态权威学术榜单上综合成绩第一的模型。VisualGLM-6B 是支持图像、中文和英文的多模态对话语言模型。

Zhang 等人（2023）提出了一种多模态思维链提示方法，将文本和视觉融入到一个两阶段框架中，多模态 CoT 模型（1B）在 ScienceQA 基准测试中的表现优于 GPT-3.5。

AIモデルによって生成されたコンテンツであり、慎重に確認してください（提供元: aily）

参照

Gemini report 中文翻译

我们评估了模型在四个不同的能力上：使用caption或问答任务（如VQAv2）进行高级对象识别；使用TextVQA和DocVQA等任务进行细粒度转录，要求模型识别low-level的细节；使用ChartQA和InfographicVQA任务要求模型理解输入布局的空间理解以及使用Ai2D、MathVista和MMMU等任务进行多模态推理。对于zero-shot QA评估，模型被指示提供与特定基准对齐的简短答案。所有数字都是通过Greedy Sampling获得的，没有使用任何外部OCR工具。我们发现Gemini Ultra在表7中的各种图像理解基准测试中都是最先进的。它在回答自然图像和扫描文档的问题，以及理解信息图表、图表和科学图解等各种任务中表现出强大的性能。与其他模型（尤其是GPT-4V）公开报告的结果相比，Gemini在zero-shot评估中表现更好。它还超过了几个专门在基准训练集上进行微调的现有模型，适用于大多数任务。Gemini模型的能力在学术基准测试中取得了显著的改进，如MathVista（+3.1%）或InfographicVQA（+5.2%）。MMMU（Yue等人，2023）是一个最近发布的评估基准，其中包含了关于图像的问题，涵盖了6个学科，每个学科中又有多个主题，需要大学水平的知识来解答这些问题。Gemini Ultra在这个基准测试中取得了最好的分数，比最先进的结果提高了5个百分点以上，并在6个学科中的5个学科中超过了以前的最佳结果（见表8），从而展示了它的多模态推理能力。

智谱·AI 开源模型列表

，我们推出了具有视觉和语言双模态的模型。|模型|介绍|代码链接|模型下载||-|-|-|-||CogAgent-18B|基于CogVLM-17B改进的开源视觉语言模型。CogAgent-18B拥有110亿视觉参数和70亿语言参数，支持1120*1120分辨率的图像理解，在CogVLM功能的基础上，具备GUI图像的Agent能力。|[CogVLM&CogAgent](https://github.com/THUDM/CogVLM)|[Huggingface](https://huggingface.co/THUDM/CogVLM)|[魔搭社区](https://modelscope.cn/models/ZhipuAI/cogagent-chat/summary)|[Swanhub](https://swanhub.co/ZhipuAI/cogagent-chat-hf)|始智社区||CogVLM-17B|强大的开源视觉语言模型（VLM）。基于对视觉和语言信息之间融合的理解，CogVLM可以在不牺牲任何NLP任务性能的情况下，实现视觉语言特征的深度融合。我们训练的CogVLM-17B是目前多模态权威学术榜单上综合成绩第一的模型，在14个数据集上取得了state-of-the-art或者第二名的成绩。||[Huggingface](https://huggingface.co/THUDM/cogvlm-chat-hf)|[魔搭社区](https://modelscope.cn/models/AI-ModelScope/cogvlm-chat/summary)||Visualglm-6B|VisualGLM-6B是一个开源的，支持图像、中文和英文的多模态对话语言模型，语言模型基于[ChatGLM-6B](https://github.com/THUDM/ChatGLM-6B)，具有62亿参数；图像部分通过训练[BLIP2-Qformer](https://arxiv.org/abs/2301.12597)构建起视觉模型与语言模型的桥梁，整体模型共78亿参数。|[VisuaGLM](https://github.com/THUDM/VisualGLM-6B)|[Huggingface](https://huggingface.co/THUDM/visualglm-6b)|[魔搭社区](https://modelscope.cn/models/ZhipuAI/visualglm-6b/summary)|

多模态思维链提示方法

[Zhang等人（2023）(opens in a new tab)](https://arxiv.org/abs/2302.00923)提出了一种多模态思维链提示方法。传统的思维链提示方法侧重于语言模态。相比之下，多模态思维链提示将文本和视觉融入到一个两阶段框架中。第一步涉及基于多模态信息的理性生成。接下来是第二阶段的答案推断，它利用生成的理性信息。多模态CoT模型（1B）在ScienceQA基准测试中的表现优于GPT-3.5。图片来源：[Zhang et al.(2023)(opens in a new tab)](https://arxiv.org/abs/2302.00923)进一步阅读：[语言不是你所需要的全部：将感知与语言模型对齐(opens in a new tab)](https://arxiv.org/abs/2302.14045)（2023年2月）