Chat with Wiki - gemini

Answer

Google 的多模态大模型叫 Gemini。Gemini 是由 Google DeepMind 团队开发的，它不仅支持文本、图片等提示，还支持视频、音频和代码提示。能够理解和处理几乎任何输入，结合不同类型的信息，并生成几乎任何输出。被称为 Google 迄今为止最强大、最全面的模型，是一种“原生多模态大模型”，从设计之初就支持多模态，能够处理语言、视觉、听觉等不同形式的数据。

Gemini report 有中文翻译，源文档为：https://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf 。该翻译大部分经过人工校验，少部分根据个人对 MLLM 的理解进行翻译。本报告介绍了新的多模态模型 Gemini，它在图像、音频、视频和文本理解方面具有卓越能力。Gemini 系列包括 Ultra、Pro 和 Nano 三种尺寸，适用于不同应用场景。对广泛的基准测试的评估表明，最有能力的 Gemini Ultra 模型在 32 个基准测试中的 30 个中提高了最先进的水平，特别是第一个在经过充分研究的考试基准测试 MMLU 上实现人类专家性能的模型，并在 20 个多模态基准测试中的每一个中提升了现有 SOTA。

可以使用 Gemini 拆解视频，例如使用 Gemini 1.5 Pro 做视频分析和拆解。有测试者表示拆解准确度很高，如阿强将用 AI 做的功夫熊猫相关视频丢进去分析，效果很好。

Content generated by AI large model, please carefully verify (powered by aily)

References

问：Google 的多模态大模型叫什么？

Google的人工智能多模态大模型叫Gemini。具体介绍如下：-Gemini是Google DeepMind团队开发的多模态模型，不仅支持文本、图片等提示，还支持视频、音频和代码提示。-Gemini能够理解和处理几乎任何输入，结合不同类型的信息，并生成几乎任何输出。-Gemini被称为Google迄今为止最强大、最全面的模型。-Gemini被描述为一种"原生多模态大模型"，从设计之初就支持多模态，能够处理语言、视觉、听觉等不同形式的数据。内容由AI大模型生成，请仔细甄别

Gemini report 中文翻译

本文翻译贡献者：林夕源文档：https://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf本文主要对Gemini的report进行翻译，大部分经过人工校验，少部分根据个人对MLLM的理解进行翻译。如果不对的地方欢迎Comment。本报告介绍了一种新的多模态模型Gemini，它在图像、音频、视频和文本理解方面具有卓越的能力。Gemini系列包括Ultra、Pro和Nano三种尺寸，适用于从复杂的推理任务到设备内存受限的应用场景。对广泛的基准测试的评估表明，我们最有能力的Gemini Ultra模型在32个基准测试中的30个中提高了最先进的水平，特别是第一个在经过充分研究的考试基准测试MMLU上实现人类专家性能的模型，并在我们检查的20个多模态基准测试中的每一个中提升了现有SOTA。我们相信Gemini模型在跨模态推理和语言理解方面的新能力将能够实现各种用例，并且我们讨论了负责任地向用户部署它们的方法。

用 Gemini 拆解视频

大家可以放自己的案例，本文档可编辑使用Gemini 1.5 Pro，做视频分析和拆解能力了https://aistudio.google.com/[heading2]思路：[content]郑跃葵：拿个库布里克的电影来分析，连大师手法都学会了大峰AI绘画：太酷啦又多了一个AI视频创作助手Jones：b站大学复习有救了对！：拉片太方便了Shock：而且可以干掉人工标注了，安徽那边数据标注众包要失业了清慎：1.影视二创长剪短，一键生成小帅、小美、大壮、丧彪的故事2.警察叔叔查监控，一句话找出监控中的可疑现象3.替代Opus等长剪短工具[heading2]测试者：阿强[content]拆解作品[阿强：功夫熊猫版-如来神掌的完整复盘](https://waytoagi.feishu.cn/wiki/T6bFwVlppipd4ZkoddfcGbebnvd)好用，准确度很高，我把前几天用AI做的功夫熊猫-之离谱村版丢进去分析，效果很好拆解结果prompt：请你用极致详细的言语描述其中的每个镜头，包括其中有什么物体，在执行什么动作，产生什么形变，为什么这样设计分镜等等。感动，它竟然准确的认出了“如来神掌”Gemini 1.5 Pro给出的全文如下：[heading2]测试者：张余[content]拆解结果Gemini 1.5 Pro给出的全文如下：[heading2]测试者：Ling[content][heading2]测试者：洋洋[content]拆解结果