谷歌在今年的 Next 与 I/O 大会上连续发布了自己的 Agent 战略,并将其置于公司的 AI Stack 之上,Agent 成为接下来 Google App 的衍生。例如,从客服 Agent 到员工 Agent 再到代码 Agent,以及最新的 Google Plan Search,能够自动化多步骤执行搜索任务。如找附近有折扣的理发店并完成预约,它能理解需求、自动分解任务,调用 Google Map 等工具完成请求。这得益于 Gemini 1.5 Pro 的推理能力已达 GPT-4 水平。2024 年,Anthropic 的 Computer Use、智谱 AI 的 AutoGLM 以及 Google 的 Gemini 2.0 都展示了 AI Agent 的突破性进展。在应用场景方面,Google 的 Gemini 还涉及 GUI Agent 类,为 Agent 提供更强的视觉感知能力。
顺着推理引擎的思路,我们可以让LLM自己做自动化的多步骤推理,其间能自己使用搜索引擎,调用工具以及与其它LLM协作,Andrej的LLM OS中就包含了这些模块。最早实现这个想法原型的是AutoGPT还有BabyAGI两个开源的智能代理(AI Agent),就在去年GPT-4刚发布的时候,一时风靡全球科技圈,虽然产品非常原型和早期,但是它们给出了很好的解题思路。人类给出目标,LLM自己分解子目标,就像编程函数的递归调用那样,调用外部工具,自我评估任务是否完成,一步步实现整体目标。现在,随着LLM的推理能力和速度的提高,Agent的思路已经被很多创业公司还有科技巨头用到了自己的产品之中。例如,前段时间最受关注并且饱受非议的Devin,来自纽约的华人创业团队Cognition AI,可以像人类程序员一样自动写代码的Agent,你只需要告诉它你的需求就行,由于演示视频过于科幻,导致被人揭露造假。。行业的另一端,Google在今年的Next与I/O大会上,连续地发布了自己的Agent战略,并且把这个概念放在公司的AI Stack之上,Agent就是接下来Google App的衍生。配图2.05:Google Gemini Agent战略从客服Agent到员工Agent再到代码Agent,以及最新的Google Plan Search,可以自动化多步骤执行搜索任务的Agent。例如,你要找一下附近有折扣的理发店并帮你完成预约,那么新的Plan Search能理解你的需求,自动分解任务,然后调用Google Map还有其它工具,自动的完成你的请求。当然Google现在有底气这样做,还得仰仗Gemini 1.5 Pro的推理能力已经达到GPT-4的水平了。
应用形态重构Agent最接近魔法的AI术在人工智能的发展历程中,Agent(智能代理)一直是最令人着迷的概念之一。Agent技术在2024年实现了从概念到实践的关键突破。想象一下,当你对着手机说:“帮我给同事的朋友圈点赞”,AI就能识别屏幕,找到相应的按钮,完成操作。这不再是简单的语音助手,而是一个能真正理解和执行复杂指令的数字伙伴。这种进化令人惊叹,因为它展示了AI不仅能“听懂”,还能“思考”和“行动”。它会分析任务、规划步骤、选择工具,甚至在遇到问题时及时调整策略。这种能力让AI从一个被动的响应工具,进化成了一个主动的问题解决者。2024年,这样的场景从概念变为现实。Anthropic的Computer Use、智谱AI的AutoGLM,以及Google的Gemini 2.0,都展示了AI Agent的突破性进展。这些能力,在理论上,并不难实现。大模型可以识别屏幕中的像素点,通过足够多的训练数据,就可以理解朋友圈点赞是什么样的UI,调用系统工具,进行操作。但实际上,在过往,类似的Agent的能力,成功率并不高,泛化能力也不够强。训练模型只识别微信的UI容易,而所有App的UI都能识别则很难。同时模型进行自主操作也是难点——或者模型要成功控制无数标准化的工具,或者模型可以完全接管系统权限,直接模拟点击。这种接近成型的工程化的Agent核心在于四个关键能力的进展:
GUI Agent类,将图像理解能力赋予Agent,应用于GUI界面,为Agent提供更强的视觉感知能力智谱CogAgentGoogle Gemini腾讯AppAgent多模态Agent框架智谱AI:CogAgentCogAgent是由清华大学和智谱AI共同开发的一种新型视觉语言模型(VLM)。这个模型专门设计用于理解和导航图形用户界面(GUI),并采用了低分辨率和高分辨率图像编码器的双编码器系统,能够处理和理解复杂的GUI元素和文本内容。Agent能力:能够针对任何给定的GUI屏幕截图返回计划、下一步操作以及具体操作坐标。它还增强了与GUI相关的问答能力,能够处理关于任何GUI屏幕截图的问题,如网页、PC应用程序、移动应用等。演示案例:CogAgent能够识别和解释小型GUI元素和文本,在PC和Android平台的GUI导航方面表现出色Google:Gemini