以下是一些视频、音频、图片理解的大模型:
此外,在多模态成为大模型标配的趋势下,以下大模型在视频和图片理解方面表现出色:
作者:叮当不是机器猫|分享AI音乐动态,探索AI与音乐的无限可能!公众号:智音Brook 2024-02-20 21:16广东原文https://mp.weixin.qq.com/s/ekr0jfytmzhGOn_ZqqeC9A目录视频生成音效模型已开源Sheet Music Transformer:超越单音转录的端到端光学音乐识别AnyGPT:具有离散序列建模的统一多模态大型语言模型腾讯与新加坡国立大学发布M2UGen
GPT3.5,GPT4出来的时候大家的感觉是什么?处理文字很牛。实际上,后来大模型从理解语言到理解图片、视频、听筒、声音,OpenAI的产品密集地发布,Meta发了一个V-JEPA,这是杨博士推崇的世界模型打造的多模态。Google推出Genie……这个写错了,Genie是新的,是世界模型,实际Google的Gemini里号称强大的就是对视频和图片进行深入的解读。Stable Diffusion发了最新的版本,也是有很强大的对视频和图片的理解能力。注意,我强调一下,文生图和文生视频严格说不难,Diffusion算法都能支持。最难的是你得画对一幅图,你对这幅图相应得有理解。如果你对一个图都没有理解,想把一个图或视频画对是根本做不到的。所以,我们看Sora表面上看起来是一个做视频的工具,Sora背后意味着OpenAI对视频的阅读能力、解读能力、分析能力有了非常大的质的提升。
GPT3.5,GPT4出来的时候大家的感觉是什么?处理文字很牛。实际上,后来大模型从理解语言到理解图片、视频、听筒、声音,OpenAI的产品密集地发布,Meta发了一个V-JEPA,这是杨博士推崇的世界模型打造的多模态。Google推出Genie……这个写错了,Genie是新的,是世界模型,实际Google的Gemini里号称强大的就是对视频和图片进行深入的解读。Stable Diffusion发了最新的版本,也是有很强大的对视频和图片的理解能力。注意,我强调一下,文生图和文生视频严格说不难,Diffusion算法都能支持。最难的是你得画对一幅图,你对这幅图相应得有理解。如果你对一个图都没有理解,想把一个图或视频画对是根本做不到的。所以,我们看Sora表面上看起来是一个做视频的工具,Sora背后意味着OpenAI对视频的阅读能力、解读能力、分析能力有了非常大的质的提升。