什么是多模态？什么是跨模态？-WayToAGI

回答

多模态指多数据类型交互，能够提供更接近人类感知的场景。大模型对应的模态包括文本、图像、音频、视频等。例如，Gemini 模型本身就是多模态的，它展示了无缝结合跨模态能力，如从表格、图表或图形中提取信息和空间布局，以及语言模型的强大推理能力，在识别输入中的细微细节、在空间和时间上聚合上下文，以及在一系列视频帧和/或音频输入上应用这些能力方面表现出强大的性能。

跨模态通常指不同模态之间的交互和融合。例如在 GPT-4 的相关研究中，探索了视觉和音频等可能出乎意料的模态。智能的一个关键衡量标准是能够从不同的领域或模式中综合信息，并能够跨不同的情境或学科应用知识和技能。

内容由 AI 大模型生成，请仔细甄别（powered by aily）

参考资料

走入AI的世界

图9大模型核心基础概念泛化能力：不用人话说是“指模型在未曾见过的数据上表现良好的能力”，用大白话讲就是“举一反三”的能力，人类就是泛化能力很强的物种，我们不需要见过这个世界上的每一只猫，就能认识猫这个概念。多模态：指多数据类型交互，从而能够提供更接近人类感知的场景。正如人有眼、耳、鼻、舌、身、意等多个模态，大模型对应的模态是文本、图像、音频、视频……对齐能力：指与人类价值观与利益目标保持一致的能力。大模型相比我们普通人类个体是“无所不知”的，但他并不会把他知道的都告诉你，例如你问chatGPT如何制造炸弹，他虽然知道，但并不会告诉你具体步骤和配方，这是因为chatGPT做了很好的对齐工程，但目前阶段，有很多提示词注入的方法，也能绕过各种限制，这也开辟了大模型领域黑白对抗的新战场（事实上，人类自身就不是一个价值观对齐的物种，同一件事在一些群体眼中稀松平常，但在另一些群体眼中十恶不赦，因此“和谁对齐”确实是一个灵魂问题）。图10大模型核心基础概念

Gemini report 中文翻译

Gemini模型本身就是多模态的。这些模型展示了无缝结合跨模态能力的独特能力（例如从表格、图表或图形中提取信息和空间布局），以及语言模型的强大推理能力（例如在数学和编码方面的最新性能），如图5和12中的示例所示。这些模型在识别输入中的细微细节、在空间和时间上聚合上下文，以及在一系列视频帧和/或音频输入上应用这些能力方面也表现出强大的性能。下面的部分提供了对模型在不同模态（图像、视频和音频）上的更详细评估，以及模型在图像生成和跨不同模态的信息组合能力方面的定性示例。

报告：GPT-4 通用人工智能的火花

Multimodal and interdisciplinary composition智能的一个关键衡量标准是能够从不同的领域或模式中综合信息，并能够跨不同的情境或学科应用知识和技能。在本节中，我们将看到：-GPT-4不仅在文学、医学、法律、数学、物理科学和编程等不同领域展示了高水平的专业知识，而且还能够流畅地结合多个领域的技能和概念，展现出对复杂思想的令人印象深刻的理解。-我们还在第2.2节和第2.3节中探索了两种可能出乎意料的模态（正如介绍中所解释的，我们再次强调我们的实验是在GPT-4的早期版本上进行的，该版本不是多模态的），分别是视觉和音频。