我想找一些具有「图片理解」能力的模型 -WayToAGI

回答

以下是一些具有“图片理解”能力的模型：

Gemini 模型：Gemini Ultra 在各种图像理解基准测试中表现出色，如在表 7 中的各项测试中是最先进的。它在回答自然图像和扫描文档的问题，以及理解信息图表、图表和科学图解等各种任务中性能强大。在 zero-shot 评估中表现优于其他模型，还超过了几个在基准训练集上微调的现有模型。在 MMMU 评估基准测试中也取得了最好的分数。
李飞飞团队开发的计算机视觉模型：能够在看到图片的第一时间生成类似人类语言的句子，但仍存在需要改进和学习的地方。
GPT-4V 模型：图像理解由多模态 GPT-3.5 和 GPT-4 提供支持，能够将语言推理技能应用于各种图像，例如照片、屏幕截图以及包含文本和图像的文档。

内容由 AI 大模型生成，请仔细甄别（powered by aily）

参考资料

[title]Gemini report中文翻译[heading1]5.评估[heading2]5.2多模态[heading3]5.2.1图像理解：我们评估了模型在四个不同的能力上：使用caption或问答任务（如VQAv2）进行高级对象识别；使用TextVQA和DocVQA等任务进行细粒度转录，要求模型识别low-level的细节；使用ChartQA和InfographicVQA任务要求模型理解输入布局的空间理解以及使用Ai2D、MathVista和MMMU等任务进行多模态推理。对于zero-shot QA评估，模型被指示提供与特定基准对齐的简短答案。所有数字都是通过Greedy Sampling获得的，没有使用任何外部OCR工具。我们发现Gemini Ultra在表7中的各种图像理解基准测试中都是最先进的。它在回答自然图像和扫描文档的问题，以及理解信息图表、图表和科学图解等各种任务中表现出强大的性能。与其他模型（尤其是GPT-4V）公开报告的结果相比，Gemini在zero-shot评估中表现更好。它还超过了几个专门在基准训练集上进行微调的现有模型，适用于大多数任务。Gemini模型的能力在学术基准测试中取得了显著的改进，如MathVista（+ 3.1%）或InfographicVQA（+ 5.2%）。MMMU（Yue等人，2023）是一个最近发布的评估基准，其中包含了关于图像的问题，涵盖了6个学科，每个学科中又有多个主题，需要大学水平的知识来解答这些问题。Gemini Ultra在这个基准测试中取得了最好的分数，比最先进的结果提高了5个百分点以上，并在6个学科中的5个学科中超过了以前的最佳结果（见表8），从而展示了它的多模态推理能力。

李飞飞的两次 TED 演讲

[title]李飞飞的两次TED演讲[heading2]一、2015年《我们怎么教计算机理解图片？》现在，计算机需要从图片和人类创造的自然语言句子中同时进行学习。就像我们的大脑，把视觉现象和语言融合在一起，我们开发了一个模型，可以把一部分视觉信息，像视觉片段，与语句中的文字、短语联系起来。大约4个月前，我们最终把所有技术结合在了一起，创造了第一个“计算机视觉模型”，它在看到图片的第一时间，就有能力生成类似人类语言的句子。现在，我准备给你们看看计算机看到图片时会说些什么——还是那些在演讲开头给小女孩看的图片。（视频）计算机：“一个男人站在一头大象旁边。”“一架大飞机停在机场跑道一端。”李飞飞：当然，我们还在努力改善我们的算法，它还有很多要学的东西。（掌声）计算机还是会犯很多错误的。（视频）计算机：“一只猫躺在床上的毯子上。”李飞飞：所以…当然——如果它看过太多种的猫，它就会觉得什么东西都长得像猫……（视频）计算机：“一个小男孩拿着一根棒球棍。”（笑声）李飞飞：或者…如果它从没见过牙刷，它就分不清牙刷和棒球棍的区别。（视频）计算机：“建筑旁的街道上有一个男人骑马经过。”（笑声）李飞飞：我们还没教它Art 101（美国大学艺术基础课）。（视频）计算机：“一只斑马站在一片草原上。”李飞飞：它还没学会像你我一样欣赏大自然里的绝美景色。所以，这是一条漫长的道路。

AIGC Weekly #41

开始使用语音，前往移动应用程序上的“设置”→“新功能”，然后选择加入语音对话。然后，点击主屏幕右上角的耳机按钮，从五种不同的声音中选择你喜欢的声音。新的语音功能由新的文本转语音模型提供支持，能够仅从文本和几秒钟的样本语音中生成类似人类的音频。Open AI与专业配音演员合作创作了每一个声音。Open AI还使用开源语音识别系统Whisper将你的口语转录为文本。[heading3]谈论图像[content]点击照片按钮来拍摄或选择图像。如果你使用的是iOS或Android，请先点击加号按钮。你还可以讨论多个图像或使用我们的绘图工具来指导您的助手。图像理解由多模态GPT-3.5和GPT-4提供支持。这些模型将其语言推理技能应用于各种图像，例如照片、屏幕截图以及包含文本和图像的文档。