以下是一些具有“图片理解”能力的模型:
[title]Gemini report中文翻译[heading1]5.评估[heading2]5.2多模态[heading3]5.2.1图像理解:我们评估了模型在四个不同的能力上:使用caption或问答任务(如VQAv2)进行高级对象识别;使用TextVQA和DocVQA等任务进行细粒度转录,要求模型识别low-level的细节;使用ChartQA和InfographicVQA任务要求模型理解输入布局的空间理解以及使用Ai2D、MathVista和MMMU等任务进行多模态推理。对于zero-shot QA评估,模型被指示提供与特定基准对齐的简短答案。所有数字都是通过Greedy Sampling获得的,没有使用任何外部OCR工具。我们发现Gemini Ultra在表7中的各种图像理解基准测试中都是最先进的。它在回答自然图像和扫描文档的问题,以及理解信息图表、图表和科学图解等各种任务中表现出强大的性能。与其他模型(尤其是GPT-4V)公开报告的结果相比,Gemini在zero-shot评估中表现更好。它还超过了几个专门在基准训练集上进行微调的现有模型,适用于大多数任务。Gemini模型的能力在学术基准测试中取得了显著的改进,如MathVista(+ 3.1%)或InfographicVQA(+ 5.2%)。MMMU(Yue等人,2023)是一个最近发布的评估基准,其中包含了关于图像的问题,涵盖了6个学科,每个学科中又有多个主题,需要大学水平的知识来解答这些问题。Gemini Ultra在这个基准测试中取得了最好的分数,比最先进的结果提高了5个百分点以上,并在6个学科中的5个学科中超过了以前的最佳结果(见表8),从而展示了它的多模态推理能力。
[title]李飞飞的两次TED演讲[heading2]一、2015年《我们怎么教计算机理解图片?》现在,计算机需要从图片和人类创造的自然语言句子中同时进行学习。就像我们的大脑,把视觉现象和语言融合在一起,我们开发了一个模型,可以把一部分视觉信息,像视觉片段,与语句中的文字、短语联系起来。大约4个月前,我们最终把所有技术结合在了一起,创造了第一个“计算机视觉模型”,它在看到图片的第一时间,就有能力生成类似人类语言的句子。现在,我准备给你们看看计算机看到图片时会说些什么——还是那些在演讲开头给小女孩看的图片。(视频)计算机:“一个男人站在一头大象旁边。”“一架大飞机停在机场跑道一端。”李飞飞:当然,我们还在努力改善我们的算法,它还有很多要学的东西。(掌声)计算机还是会犯很多错误的。(视频)计算机:“一只猫躺在床上的毯子上。”李飞飞:所以…当然——如果它看过太多种的猫,它就会觉得什么东西都长得像猫……(视频)计算机:“一个小男孩拿着一根棒球棍。”(笑声)李飞飞:或者…如果它从没见过牙刷,它就分不清牙刷和棒球棍的区别。(视频)计算机:“建筑旁的街道上有一个男人骑马经过。”(笑声)李飞飞:我们还没教它Art 101(美国大学艺术基础课)。(视频)计算机:“一只斑马站在一片草原上。”李飞飞:它还没学会像你我一样欣赏大自然里的绝美景色。所以,这是一条漫长的道路。
开始使用语音,前往移动应用程序上的“设置”→“新功能”,然后选择加入语音对话。然后,点击主屏幕右上角的耳机按钮,从五种不同的声音中选择你喜欢的声音。新的语音功能由新的文本转语音模型提供支持,能够仅从文本和几秒钟的样本语音中生成类似人类的音频。Open AI与专业配音演员合作创作了每一个声音。Open AI还使用开源语音识别系统Whisper将你的口语转录为文本。[heading3]谈论图像[content]点击照片按钮来拍摄或选择图像。如果你使用的是iOS或Android,请先点击加号按钮。你还可以讨论多个图像或使用我们的绘图工具来指导您的助手。图像理解由多模态GPT-3.5和GPT-4提供支持。这些模型将其语言推理技能应用于各种图像,例如照片、屏幕截图以及包含文本和图像的文档。