以下是视觉理解技术的最新动态和趋势:
一、视觉分析技术
二、图像-语言模型
三、视频-语言模型
四、LLM 多模态 Agent
五、应用场景
六、未来发展方向
此外,李飞飞在 2015 年的 TED 演讲《我们怎么教计算机理解图片?》中提到了计算机视觉方面的研究进展,指出虽然在科技上取得了很多进步,但在计算机视觉方面仍存在一些问题,如自动驾驶车辆的视觉敏锐度、向盲人传递画面、无人机的视觉技术等。
原文链接:https://mp.weixin.qq.com/s/dYLqW8dNOcQw59UtQwXNgA来源:质朴发言发文时间:2024.01.22近期,生成式AI领域的浪潮催化了多模态模型的探索,研究人员不断尝试使用更多模态数据的编码,以训练出能够理解和处理多种类型数据的模型。本份研究报告集中讨论了基于Transformer架构的视觉-语言模型,这些模型优化了从视觉输入到语言输出的转换过程。报告的范围专注于视觉和语言之间的交互,而不考虑单纯的视觉到视觉的计算机视觉任务。综上,本报告旨在为所有关心大模型事业的伙伴,提供一个全面而深入的视角,以理解视觉-语言理解模型的发展历程、现状及未来趋势。🌊目录建议结合要点进行针对性阅读。👇一、视觉分析技术1、Transformer视觉模型优点2、Transformer视觉模型的局限二、图像-语言模型三、视频-语言模型四、LLM多模态Agent五、应用场景1、多模态内容理解与处理2、智能交互与自动化3、具身智能4、未来发展趋势(2024-?)5、视频生成模型mapping六、未来发展方向1、技术路径而言:利用预训练LLMs进行指令调整2、应用场景而言:赋予机器理解多模态的能力七、References八、附录
最初,多模态融合方法常采用预训练的目标检测器,例如ViLBERT、VisualBERT和Unicoder-VL。这些方法通过提取图像特征和执行交叉模态预训练任务,为后续的图像-文本任务奠定了基础。随着ViT的出现和普及,更多方法开始利用ViT作为图像编码器。这些方法强调大规模预训练,以提高模型的性能和泛化能力,例如Flamingo。近期,我们见证了向多模态LLMs的发展趋势,从进行预训练到向指令调整(instruction tuning)转变。例如LLaVA和MiniGPT-4,它们通过融合视觉和语言信息,能够更有效地完成视觉理解相关的任务。这进一步提升模型对于指令的理解能力,提升零样本性能,使模型能够更好地泛化到未见过的任务和领域,对于实现具有高度智能的通用人工智能,是一个重要的进步。
链接:https://www.ted.com/talks/fei_fei_li_how_we_re_teaching_computers_to_understand_pictures?language=zh-CN我先来给你们看点东西。(视频)女孩:好吧,这是只猫,坐在床上。一个男孩摸着一头大象。那些人正准备登机。那是架大飞机。李飞飞:这是一个三岁的小孩在讲述她从一系列照片里看到的东西。对这个世界,她也许还有很多要学的东西,但在一个重要的任务上,她已经是专家了:去理解她所看到的东西。我们的社会已经在科技上取得了前所未有的进步。我们把人送上月球,我们制造出可以与我们对话的手机,或者订制一个音乐电台,播放的全是我们喜欢的音乐。然而,哪怕是我们最先进的机器和电脑也会在这个问题上犯难。所以今天我在这里,向大家做个进度汇报:关于我们在计算机视觉方面最新的研究进展。这是计算机科学领域最前沿的、具有革命性潜力的科技。是的,我们现在已经有了具备自动驾驶功能的原型车,但是如果没有敏锐的视觉,它们就不能真正区分出地上摆着的是一个压扁的纸袋,可以被轻易压过,还是一块相同体积的石头,应该避开。我们已经造出了超高清的相机,但我们仍然无法把这些画面传递给盲人。我们的无人机可以飞越广阔的土地,却没有足够的视觉技术