Google 的多模态大模型叫 Gemini。Gemini 是由 Google DeepMind 团队开发的,它不仅支持文本、图片等提示,还支持视频、音频和代码提示。能够理解和处理几乎任何输入,结合不同类型的信息,并生成几乎任何输出。被称为 Google 迄今为止最强大、最全面的模型,是一种“原生多模态大模型”,从设计之初就支持多模态,能够处理语言、视觉、听觉等不同形式的数据。
Gemini report 有中文翻译,源文档为:https://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf 。该翻译大部分经过人工校验,少部分根据个人对 MLLM 的理解进行翻译。本报告介绍了新的多模态模型 Gemini,它在图像、音频、视频和文本理解方面具有卓越能力。Gemini 系列包括 Ultra、Pro 和 Nano 三种尺寸,适用于不同应用场景。对广泛的基准测试的评估表明,最有能力的 Gemini Ultra 模型在 32 个基准测试中的 30 个中提高了最先进的水平,特别是第一个在经过充分研究的考试基准测试 MMLU 上实现人类专家性能的模型,并在 20 个多模态基准测试中的每一个中提升了现有 SOTA。
可以使用 Gemini 拆解视频,例如使用 Gemini 1.5 Pro 做视频分析和拆解。有测试者表示拆解准确度很高,如阿强将用 AI 做的功夫熊猫相关视频丢进去分析,效果很好。
Google的人工智能多模态大模型叫Gemini。具体介绍如下:-Gemini是Google DeepMind团队开发的多模态模型,不仅支持文本、图片等提示,还支持视频、音频和代码提示。-Gemini能够理解和处理几乎任何输入,结合不同类型的信息,并生成几乎任何输出。-Gemini被称为Google迄今为止最强大、最全面的模型。-Gemini被描述为一种"原生多模态大模型",从设计之初就支持多模态,能够处理语言、视觉、听觉等不同形式的数据。内容由AI大模型生成,请仔细甄别
本文翻译贡献者:林夕源文档:https://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf本文主要对Gemini的report进行翻译,大部分经过人工校验,少部分根据个人对MLLM的理解进行翻译。如果不对的地方欢迎Comment。本报告介绍了一种新的多模态模型Gemini,它在图像、音频、视频和文本理解方面具有卓越的能力。Gemini系列包括Ultra、Pro和Nano三种尺寸,适用于从复杂的推理任务到设备内存受限的应用场景。对广泛的基准测试的评估表明,我们最有能力的Gemini Ultra模型在32个基准测试中的30个中提高了最先进的水平,特别是第一个在经过充分研究的考试基准测试MMLU上实现人类专家性能的模型,并在我们检查的20个多模态基准测试中的每一个中提升了现有SOTA。我们相信Gemini模型在跨模态推理和语言理解方面的新能力将能够实现各种用例,并且我们讨论了负责任地向用户部署它们的方法。
大家可以放自己的案例,本文档可编辑使用Gemini 1.5 Pro,做视频分析和拆解能力了https://aistudio.google.com/[heading2]思路:[content]郑跃葵:拿个库布里克的电影来分析,连大师手法都学会了大峰AI绘画:太酷啦又多了一个AI视频创作助手Jones:b站大学复习有救了对!:拉片太方便了Shock:而且可以干掉人工标注了,安徽那边数据标注众包要失业了清慎:1.影视二创长剪短,一键生成小帅、小美、大壮、丧彪的故事2.警察叔叔查监控,一句话找出监控中的可疑现象3.替代Opus等长剪短工具[heading2]测试者:阿强[content]拆解作品[阿强:功夫熊猫版-如来神掌的完整复盘](https://waytoagi.feishu.cn/wiki/T6bFwVlppipd4ZkoddfcGbebnvd)好用,准确度很高,我把前几天用AI做的功夫熊猫-之离谱村版丢进去分析,效果很好拆解结果prompt:请你用极致详细的言语描述其中的每个镜头,包括其中有什么物体,在执行什么动作,产生什么形变,为什么这样设计分镜等等。感动,它竟然准确的认出了“如来神掌”Gemini 1.5 Pro给出的全文如下:[heading2]测试者:张余[content]拆解结果Gemini 1.5 Pro给出的全文如下:[heading2]测试者:Ling[content][heading2]测试者:洋洋[content]拆解结果