Chat with Wiki - 多模态是什么

Answer

多模态是指多数据类型交互，能够提供更接近人类感知的场景。大模型对应的模态包括文本、图像、音频、视频等。

随着生成式 AI 和大模型的发展，我们逐渐进入多模态灵活转换的新时代，即利用 AI 实现文本、图像、音频、视频及其他更多模态之间的互相理解和相互转换，这一变革依靠一系列革新性的算法。

在感知不同模态数据时，AI 不再局限于传统的单一模态处理方式，而是借助高维向量空间来理解数据，将图像或文字“压缩”成能够捕捉深层关系的抽象向量。

Gemini 模型本身就是多模态的，展示了无缝结合跨模态的能力，在识别输入细节、聚合上下文以及在不同模态上应用等方面表现出强大性能。

Content generated by AI large model, please carefully verify (powered by aily)

References

图9大模型核心基础概念泛化能力：不用人话说是“指模型在未曾见过的数据上表现良好的能力”，用大白话讲就是“举一反三”的能力，人类就是泛化能力很强的物种，我们不需要见过这个世界上的每一只猫，就能认识猫这个概念。多模态：指多数据类型交互，从而能够提供更接近人类感知的场景。正如人有眼、耳、鼻、舌、身、意等多个模态，大模型对应的模态是文本、图像、音频、视频……对齐能力：指与人类价值观与利益目标保持一致的能力。大模型相比我们普通人类个体是“无所不知”的，但他并不会把他知道的都告诉你，例如你问chatGPT如何制造炸弹，他虽然知道，但并不会告诉你具体步骤和配方，这是因为chatGPT做了很好的对齐工程，但目前阶段，有很多提示词注入的方法，也能绕过各种限制，这也开辟了大模型领域黑白对抗的新战场（事实上，人类自身就不是一个价值观对齐的物种，同一件事在一些群体眼中稀松平常，但在另一些群体眼中十恶不赦，因此“和谁对齐”确实是一个灵魂问题）。图10大模型核心基础概念

展望2025，AI行业有哪些创新机会？ | 峰瑞报告

o1的另外一个重要贡献在于打破了完全由预训练所决定的数据墙，引入了一种全新的RL（强化学习）Scaling Law，在模型训练和推理过程中引入强化学习，从而实现超越现有模型的复杂推理能力。整体而言，模型o1在科学研究、编程和数学等高价值任务中的表现，超越了此前的模型，展现了巨大的技术潜力。2、“多模态”——打破数据的“模态壁垒”随着生成式AI和大模型的发展，我们逐渐进入一个多模态灵活转换的新时代。简单来说，就是用AI实现文本、图像、音频、视频及其他更多模态之间的互相理解和相互转换。支撑这一变革，让多模态实现“解构”和“重构”的，正是一系列革新性的算法。解构的力量：从“像素级分析”到“高维向量空间”目前，AI在感知不同模态数据（如图像、文字、音频等）时，不再局限于传统的单一模态处理方式，而是借助高维向量空间来理解数据。听起来有些玄乎，通俗点说，就是AI不再只是单纯地数有多少像素、多少字母，而是将图像或文字“压缩”成一个个抽象的向量，这些向量能够捕捉图像和文字中的深层关系，比如图像中的色彩、文字中的语义。例如，以大语言模型（LLM）为代表的GPT、BERT等模型，已经可以将文字的语义和上下文关系编码到向量中。而在视觉领域，类似的向量化方法则让AI不仅能“看到”图像，还能“理解”图像中的物体和场景。这样一来，AI仿佛获得了“读心术”：不仅能理解一段文字描述，还可以将其转换为“脑海”中的一幅画，甚至一段视频。重构的艺术：AI算法的“神奇魔法”

Gemini report 中文翻译

Gemini模型本身就是多模态的。这些模型展示了无缝结合跨模态能力的独特能力（例如从表格、图表或图形中提取信息和空间布局），以及语言模型的强大推理能力（例如在数学和编码方面的最新性能），如图5和12中的示例所示。这些模型在识别输入中的细微细节、在空间和时间上聚合上下文，以及在一系列视频帧和/或音频输入上应用这些能力方面也表现出强大的性能。下面的部分提供了对模型在不同模态（图像、视频和音频）上的更详细评估，以及模型在图像生成和跨不同模态的信息组合能力方面的定性示例。