多模态是指多数据类型交互,能够提供更接近人类感知的场景。大模型对应的模态包括文本、图像、音频、视频等。
随着生成式 AI 和大模型的发展,我们逐渐进入多模态灵活转换的新时代,即利用 AI 实现文本、图像、音频、视频及其他更多模态之间的互相理解和相互转换,这一变革依靠一系列革新性的算法。
在感知不同模态数据时,AI 不再局限于传统的单一模态处理方式,而是借助高维向量空间来理解数据,将图像或文字“压缩”成能够捕捉深层关系的抽象向量。
Gemini 模型本身就是多模态的,展示了无缝结合跨模态的能力,在识别输入细节、聚合上下文以及在不同模态上应用等方面表现出强大性能。
图9大模型核心基础概念泛化能力:不用人话说是“指模型在未曾见过的数据上表现良好的能力”,用大白话讲就是“举一反三”的能力,人类就是泛化能力很强的物种,我们不需要见过这个世界上的每一只猫,就能认识猫这个概念。多模态:指多数据类型交互,从而能够提供更接近人类感知的场景。正如人有眼、耳、鼻、舌、身、意等多个模态,大模型对应的模态是文本、图像、音频、视频……对齐能力:指与人类价值观与利益目标保持一致的能力。大模型相比我们普通人类个体是“无所不知”的,但他并不会把他知道的都告诉你,例如你问chatGPT如何制造炸弹,他虽然知道,但并不会告诉你具体步骤和配方,这是因为chatGPT做了很好的对齐工程,但目前阶段,有很多提示词注入的方法,也能绕过各种限制,这也开辟了大模型领域黑白对抗的新战场(事实上,人类自身就不是一个价值观对齐的物种,同一件事在一些群体眼中稀松平常,但在另一些群体眼中十恶不赦,因此“和谁对齐”确实是一个灵魂问题)。图10大模型核心基础概念
o1的另外一个重要贡献在于打破了完全由预训练所决定的数据墙,引入了一种全新的RL(强化学习)Scaling Law,在模型训练和推理过程中引入强化学习,从而实现超越现有模型的复杂推理能力。整体而言,模型o1在科学研究、编程和数学等高价值任务中的表现,超越了此前的模型,展现了巨大的技术潜力。2、“多模态”——打破数据的“模态壁垒”随着生成式AI和大模型的发展,我们逐渐进入一个多模态灵活转换的新时代。简单来说,就是用AI实现文本、图像、音频、视频及其他更多模态之间的互相理解和相互转换。支撑这一变革,让多模态实现“解构”和“重构”的,正是一系列革新性的算法。解构的力量:从“像素级分析”到“高维向量空间”目前,AI在感知不同模态数据(如图像、文字、音频等)时,不再局限于传统的单一模态处理方式,而是借助高维向量空间来理解数据。听起来有些玄乎,通俗点说,就是AI不再只是单纯地数有多少像素、多少字母,而是将图像或文字“压缩”成一个个抽象的向量,这些向量能够捕捉图像和文字中的深层关系,比如图像中的色彩、文字中的语义。例如,以大语言模型(LLM)为代表的GPT、BERT等模型,已经可以将文字的语义和上下文关系编码到向量中。而在视觉领域,类似的向量化方法则让AI不仅能“看到”图像,还能“理解”图像中的物体和场景。这样一来,AI仿佛获得了“读心术”:不仅能理解一段文字描述,还可以将其转换为“脑海”中的一幅画,甚至一段视频。重构的艺术:AI算法的“神奇魔法”
Gemini模型本身就是多模态的。这些模型展示了无缝结合跨模态能力的独特能力(例如从表格、图表或图形中提取信息和空间布局),以及语言模型的强大推理能力(例如在数学和编码方面的最新性能),如图5和12中的示例所示。这些模型在识别输入中的细微细节、在空间和时间上聚合上下文,以及在一系列视频帧和/或音频输入上应用这些能力方面也表现出强大的性能。下面的部分提供了对模型在不同模态(图像、视频和音频)上的更详细评估,以及模型在图像生成和跨不同模态的信息组合能力方面的定性示例。