多模态应用是生成式人工智能领域的重要突破点,具有以下特点和潜力:
尽管聊天界面对许多用户来说令人兴奋和直观,但人类听和说语言的频率可能与写或读语言的频率相当或更高。正如Amodei所指出的:“AI系统能做的事情是有限的,因为并不是所有的事情都是文本。”具备多模态功能的模型能够无缝地处理和生成多种音频或视觉格式的内容,将这种交互扩展到超越语言的领域。像GPT-4、Character.AI和Meta的ImageBind这样的模型已经能够处理和生成图像、音频和其他模态,但它们在这方面的能力还比较基础,尽管进展迅速。用Gomez的话说,我们的模型在字面上今天是盲的,这一点需要改变。我们构建了很多假设用户能够看到的图形用户界面(GUI)。随着LLMs不断进化,更好地理解和与多种模态交互,它们将能够使用依赖GUI的现有应用程序,比如浏览器。它们还可以为消费者提供更加引人入胜、连贯和全面的体验,使用户能够超越聊天界面进行互动。Shazeer指出:“多模态模型的许多出色整合可以使事物更具吸引力和与用户更紧密相连。”他还说:“我认为,目前大部分核心智能来自文本,但音频和视频可以使这些事物更有趣。”从与AI导师进行视频聊天到与AI合作迭代和编写电视剧剧本,多模态有潜力改变娱乐、学习与发展以及跨各种消费者和企业用例的内容生成。多模态与工具使用密切相关。尽管LLMs最初可能通过API与外部软件进行连接,但多模态将使LLMs能够使用设计给人类使用但没有自定义集成的工具,例如传统的企业资源计划(ERP)系统、桌面应用程序、医疗设备或制造机械。在这方面,我们已经看到了令人兴奋的进展:例如,谷歌的Med-PaLM-2模型可以合成乳腺摄影和X射线图像。而且从长远来看,多模态(特别是与计算机视觉的集成)可以通过机器人、自动驾驶车辆和其他需要与物理世界实时交互的应用程序,将LLMs扩展到我们自己的物理现实中。
关键突破点:多模态模型能够在没有重大定制的情况下推理图像、视频,甚至物理环境。尽管LLMs存在一些实际限制,但研究人员在短时间内对这些模型进行了惊人的改进。事实上,我们在撰写本文时已经多次更新过它,这证明了该领域技术的快速发展。Gomez也表示同意:“LLM在20次中有1次编造事实显然还是太高了。但我真的非常有信心,这是我们第一次构建这样的系统。人们的期望相当高,所以目标已经从‘计算机很笨,只会做数学’变成了‘一个人可能做得更好’。我们已经足够弥合差距,以至于批评集中在人类能做到什么程度上。”我们特别对以下4项创新感到兴奋,它们正处于改变创业者构建产品和经营公司方式的临界点。从长远来看,潜力更大。Amodei预测:“在某个时刻,我们可能会拥有一个模型,它能够阅读所有生物数据,并找出治愈癌症的方法。”现实情况是,最好的新应用可能仍然是未知的。在Character.AI,Shazeer让用户开发这些用例:“我们将看到许多新的应用程序解锁。对我来说很难说出这些应用程序是什么。将会有数百万个应用程序,用户比少数工程师更善于发现如何使用技术。”我们迫不及待地期待这些进步将如何影响我们作为创业者和公司在生活和工作中的方式,因为这些新工具和能力赋予了我们新的力量。
随着ChatGPT()的蓬勃发展,大型模型正深刻地影响着各个行业,技术的飞速发展让人感觉仿佛“度日如年”(每天涌现的新技术数量甚至超过过去一年)。在这个快速发展的潮流中,多模态技术作为行业的前沿更是突飞猛进,呈现出一统计算机视觉(CV)和自然语言处理(NLP)的势头。本文介绍了一款能够迅速解释现实世界的应用,它基于多模态大型模型,为现实世界提供了一本实时说明书。将手机置于车载摄像机位置,该应用能够实时分析当前地区今年新春的最新流行趋势。不仅展示了多模态技术的强大之处,还为我们提供了对真实世界的深入解释。这是快速在手机上利用多模态技术的方式之一,「近距离地感受一下大模型对传统APP开发的降维打击」。在这种架构中,后端采用llama.cpp挂载LLaVA模型,为应用提供推理服务。同时,部署了一个Flask应用用于数据前处理和后处理,提供Stream流服务。前端页面采用HTML5,用于采集画面和用户输入,整体设计以简单高效为主打。[heading2]建立llama.cpp服务器[heading2]LLaVA模型[content]下载模型ggml_llava-v1.5-13b,这里选择是13b 4bit的模型。BakLLaVA推理速度更快,但对中文的支持较差,7b的模型在语义理解方面普遍存在不足,特别是在需要规范数据格式进行交互的场合。对于function call和action操作,极度依赖模型的AGI能力。希望开源社区在不断努力,早日赶上GPT-4V的水平。