我想找一些具有「图片理解」能力的模型，最好是国内的-WayToAGI

回答

以下是一些具有“图片理解”能力的国内模型：

Gemini 模型：在各种图像理解基准测试中表现出色，如在表 7 中的各项测试中是最先进的，在回答自然图像和扫描文档的问题，以及理解信息图表、图表和科学图解等任务中性能强大。在 zero-shot 评估中表现优于其他模型，在多学科的 MMMU 评估基准测试中也取得了最好的分数。
国内大模型：
- 北京企业机构：百度（文心一言）https://wenxin.baidu.com 、抖音（云雀大模型）https://www.doubao.com 、智谱 AI（GLM 大模型）https://chatglm.cn 、中科院（紫东太初大模型）https://xihe.mindspore.cn 、百川智能（百川大模型）https://www.baichuan-ai.com/
- 上海企业机构：商汤（日日新大模型）https://www.sensetime.com/ 、MiniMax（ABAB 大模型）https://api.minimax.chat 、上海人工智能实验室（书生通用大模型）https://intern-ai.org.cn
智谱·AI 开源模型：
- CogAgent-18B：基于 CogVLM-17B 改进的开源视觉语言模型，拥有 110 亿视觉参数和 70 亿语言参数，支持 1120*1120 分辨率的图像理解，具备 GUI 图像的 Agent 能力。
- CogVLM-17B：强大的开源视觉语言模型，在多模态权威学术榜单上综合成绩第一，在 14 个数据集上取得了 state-of-the-art 或者第二名的成绩。
- Visualglm-6B：开源的支持图像、中文和英文的多模态对话语言模型，语言模型基于 ChatGLM-6B，具有 62 亿参数；图像部分通过训练 BLIP2-Qformer 构建起视觉模型与语言模型的桥梁，整体模型共 78 亿参数。
- RDM：Relay Diffusion Model，级联扩散模型，可以从任意给定分辨率的图像快速生成，而无需从白噪声生成。

内容由 AI 大模型生成，请仔细甄别（powered by aily）

参考资料

[title]Gemini report中文翻译[heading1]5.评估[heading2]5.2多模态[heading3]5.2.1图像理解：我们评估了模型在四个不同的能力上：使用caption或问答任务（如VQAv2）进行高级对象识别；使用TextVQA和DocVQA等任务进行细粒度转录，要求模型识别low-level的细节；使用ChartQA和InfographicVQA任务要求模型理解输入布局的空间理解以及使用Ai2D、MathVista和MMMU等任务进行多模态推理。对于zero-shot QA评估，模型被指示提供与特定基准对齐的简短答案。所有数字都是通过Greedy Sampling获得的，没有使用任何外部OCR工具。我们发现Gemini Ultra在表7中的各种图像理解基准测试中都是最先进的。它在回答自然图像和扫描文档的问题，以及理解信息图表、图表和科学图解等各种任务中表现出强大的性能。与其他模型（尤其是GPT-4V）公开报告的结果相比，Gemini在zero-shot评估中表现更好。它还超过了几个专门在基准训练集上进行微调的现有模型，适用于大多数任务。Gemini模型的能力在学术基准测试中取得了显著的改进，如MathVista（+ 3.1%）或InfographicVQA（+ 5.2%）。MMMU（Yue等人，2023）是一个最近发布的评估基准，其中包含了关于图像的问题，涵盖了6个学科，每个学科中又有多个主题，需要大学水平的知识来解答这些问题。Gemini Ultra在这个基准测试中取得了最好的分数，比最先进的结果提高了5个百分点以上，并在6个学科中的5个学科中超过了以前的最佳结果（见表8），从而展示了它的多模态推理能力。

8月正式上线的国内大模型

[title]8月正式上线的国内大模型5⃣️五家北京企业机构：百度（文心一言）https://wenxin.baidu.com抖音（云雀大模型）https://www.doubao.com智谱AI（GLM大模型）https://chatglm.cn中科院（紫东太初大模型）https://xihe.mindspore.cn百川智能（百川大模型）https://www.baichuan-ai.com/3⃣️三家上海企业机构：商汤（日日新大模型）https://www.sensetime.com/MiniMax（ABAB大模型）https://api.minimax.chat上海人工智能实验室（书生通用大模型）https://intern-ai.org.cn今天这8个大模型，在聊天状态下——能生成Markdown格式的：智谱清言、商量Sensechat、MiniMax目前不能进行自然语言交流的：昇思（可以对文本进行是否由AI生成的检测，类似论文查重，准确度不错）、书生受限制使用：MiniMax（无法对生成的文本进行复制输出，且只有15元的预充值额度进行体验，完成企业认证后可以进行充值）特色功能：昇思——生图，MiniMax——语音合成阿里通义千问、360智脑、讯飞星火等均不在首批获批名单中，广东省2家和其他省市1家也将陆续开放据悉，广东地区获批公司分别为华为、腾讯，科大讯飞系其他地区获批产品

智谱·AI 开源模型列表

[title]智谱·AI开源模型列表[heading2]多模态模型��模态的模型。|模型|介绍|代码链接|模型下载| |-|-|-|-| |CogAgent-18B|基于CogVLM-17B改进的开源视觉语言模型。CogAgent-18B拥有110亿视觉参数和70亿语言参数，支持1120*1120分辨率的图像理解，在CogVLM功能的基础上，具备GUI图像的Agent能力。|[CogVLM & CogAgent](https://github.com/THUDM/CogVLM)|[Huggingface](https://huggingface.co/THUDM/CogVLM)|[魔搭社区](https://modelscope.cn/models/ZhipuAI/cogagent-chat/summary)|[Swanhub](https://swanhub.co/ZhipuAI/cogagent-chat-hf)|始智社区| |CogVLM-17B|强大的开源视觉语言模型（VLM）。基于对视觉和语言信息之间融合的理解，CogVLM可以在不牺牲任何NLP任务性能的情况下，实现视觉语言特征的深度融合。我们训练的CogVLM-17B是目前多模态权威学术榜单上综合成绩第一的模型，在14个数据集上取得了state-of-the-art或者第二名的成绩。||[Huggingface](https://huggingface.co/THUDM/cogvlm-chat-hf)|[魔搭社区](https://modelscope.cn/models/AI-ModelScope/cogvlm-chat/summary)| |Visualglm-6B|VisualGLM-6B是一个开源的，支持图像、中文和英文的多模态对话语言模型，语言模型基于[ChatGLM-6B](https://github.com/THUDM/ChatGLM-6B)，具有62亿参数；图像部分通过训练[BLIP2-Qformer](https://arxiv.org/abs/2301.12597)构建起视觉模型与语言模型的桥梁，整体模型共78亿参数。|[VisuaGLM](https://github.com/THUDM/VisualGLM-6B)|[Huggingface](https://huggingface.co/THUDM/visualglm-6b)|[魔搭社区](https://modelscope.cn/models/ZhipuAI/visualglm-6b/summary)| |RDM|Relay Diffusion Model：级联扩散模型，可以从任意给定分辨率的图像快速生成，而无需从白噪声生成。|[RDM](https://github.com/THUDM/RelayDiffusion)||