Chat with Wiki - 视觉理解技术最新动态和趋势

Answer

以下是视觉理解技术的最新动态和趋势：

一、视觉分析技术

Transformer 视觉模型优点
Transformer 视觉模型的局限

二、图像-语言模型

三、视频-语言模型

四、LLM 多模态 Agent

五、应用场景

多模态内容理解与处理
智能交互与自动化
具身智能
未来发展趋势（2024 - ？）
视频生成模型 mapping

六、未来发展方向

技术路径而言：利用预训练 LLMs 进行指令调整
- 最初，多模态融合方法常采用预训练的目标检测器，如 ViLBERT、VisualBERT 和 Unicoder-VL，通过提取图像特征和执行交叉模态预训练任务，为后续的图像 - 文本任务奠定基础。
- 随着 ViT 的出现和普及，更多方法开始利用 ViT 作为图像编码器，强调大规模预训练，以提高模型的性能和泛化能力，例如 Flamingo。
- 近期，向多模态 LLMs 发展，从进行预训练到向指令调整（instruction tuning）转变，如 LLaVA 和 MiniGPT-4，融合视觉和语言信息，能更有效地完成视觉理解相关任务，提升模型对于指令的理解能力和零样本性能，更好地泛化到未见过的任务和领域。
应用场景而言：赋予机器理解多模态的能力

此外，李飞飞在 2015 年的 TED 演讲《我们怎么教计算机理解图片？》中提到了计算机视觉方面的研究进展，指出虽然在科技上取得了很多进步，但在计算机视觉方面仍存在一些问题，如自动驾驶车辆的视觉敏锐度、向盲人传递画面、无人机的视觉技术等。

Content generated by AI large model, please carefully verify (powered by aily)

References

质朴发言：视觉-语言理解模型的当前技术边界与未来应用想象｜Z 研究第 2 期

原文链接：https://mp.weixin.qq.com/s/dYLqW8dNOcQw59UtQwXNgA来源：质朴发言发文时间：2024.01.22近期，生成式AI领域的浪潮催化了多模态模型的探索，研究人员不断尝试使用更多模态数据的编码，以训练出能够理解和处理多种类型数据的模型。本份研究报告集中讨论了基于Transformer架构的视觉-语言模型，这些模型优化了从视觉输入到语言输出的转换过程。报告的范围专注于视觉和语言之间的交互，而不考虑单纯的视觉到视觉的计算机视觉任务。综上，本报告旨在为所有关心大模型事业的伙伴，提供一个全面而深入的视角，以理解视觉-语言理解模型的发展历程、现状及未来趋势。🌊目录建议结合要点进行针对性阅读。👇一、视觉分析技术1、Transformer视觉模型优点2、Transformer视觉模型的局限二、图像-语言模型三、视频-语言模型四、LLM多模态Agent五、应用场景1、多模态内容理解与处理2、智能交互与自动化3、具身智能4、未来发展趋势（2024-?）5、视频生成模型mapping六、未来发展方向1、技术路径而言：利用预训练LLMs进行指令调整2、应用场景而言：赋予机器理解多模态的能力七、References八、附录

质朴发言：视觉-语言理解模型的当前技术边界与未来应用想象｜Z 研究第 2 期

最初，多模态融合方法常采用预训练的目标检测器，例如ViLBERT、VisualBERT和Unicoder-VL。这些方法通过提取图像特征和执行交叉模态预训练任务，为后续的图像-文本任务奠定了基础。随着ViT的出现和普及，更多方法开始利用ViT作为图像编码器。这些方法强调大规模预训练，以提高模型的性能和泛化能力，例如Flamingo。近期，我们见证了向多模态LLMs的发展趋势，从进行预训练到向指令调整（instruction tuning）转变。例如LLaVA和MiniGPT-4，它们通过融合视觉和语言信息，能够更有效地完成视觉理解相关的任务。这进一步提升模型对于指令的理解能力，提升零样本性能，使模型能够更好地泛化到未见过的任务和领域，对于实现具有高度智能的通用人工智能，是一个重要的进步。

李飞飞的两次 TED 演讲

链接：https://www.ted.com/talks/fei_fei_li_how_we_re_teaching_computers_to_understand_pictures?language=zh-CN我先来给你们看点东西。（视频）女孩：好吧，这是只猫，坐在床上。一个男孩摸着一头大象。那些人正准备登机。那是架大飞机。李飞飞：这是一个三岁的小孩在讲述她从一系列照片里看到的东西。对这个世界，她也许还有很多要学的东西，但在一个重要的任务上，她已经是专家了：去理解她所看到的东西。我们的社会已经在科技上取得了前所未有的进步。我们把人送上月球，我们制造出可以与我们对话的手机，或者订制一个音乐电台，播放的全是我们喜欢的音乐。然而，哪怕是我们最先进的机器和电脑也会在这个问题上犯难。所以今天我在这里，向大家做个进度汇报：关于我们在计算机视觉方面最新的研究进展。这是计算机科学领域最前沿的、具有革命性潜力的科技。是的，我们现在已经有了具备自动驾驶功能的原型车，但是如果没有敏锐的视觉，它们就不能真正区分出地上摆着的是一个压扁的纸袋，可以被轻易压过，还是一块相同体积的石头，应该避开。我们已经造出了超高清的相机，但我们仍然无法把这些画面传递给盲人。我们的无人机可以飞越广阔的土地，却没有足够的视觉技术