Chat with Wiki - 谷歌agent

Answer

谷歌在今年的 Next 与 I/O 大会上连续发布了自己的 Agent 战略，并将其置于公司的 AI Stack 之上，Agent 成为接下来 Google App 的衍生。例如，从客服 Agent 到员工 Agent 再到代码 Agent，以及最新的 Google Plan Search，能够自动化多步骤执行搜索任务。如找附近有折扣的理发店并完成预约，它能理解需求、自动分解任务，调用 Google Map 等工具完成请求。这得益于 Gemini 1.5 Pro 的推理能力已达 GPT-4 水平。2024 年，Anthropic 的 Computer Use、智谱 AI 的 AutoGLM 以及 Google 的 Gemini 2.0 都展示了 AI Agent 的突破性进展。在应用场景方面，Google 的 Gemini 还涉及 GUI Agent 类，为 Agent 提供更强的视觉感知能力。

Content generated by AI large model, please carefully verify (powered by aily)

References

智变时代 / 全面理解机器智能与生成式 AI 加速的新工业革命

顺着推理引擎的思路，我们可以让LLM自己做自动化的多步骤推理，其间能自己使用搜索引擎，调用工具以及与其它LLM协作，Andrej的LLM OS中就包含了这些模块。最早实现这个想法原型的是AutoGPT还有BabyAGI两个开源的智能代理（AI Agent），就在去年GPT-4刚发布的时候，一时风靡全球科技圈，虽然产品非常原型和早期，但是它们给出了很好的解题思路。人类给出目标，LLM自己分解子目标，就像编程函数的递归调用那样，调用外部工具，自我评估任务是否完成，一步步实现整体目标。现在，随着LLM的推理能力和速度的提高，Agent的思路已经被很多创业公司还有科技巨头用到了自己的产品之中。例如，前段时间最受关注并且饱受非议的Devin，来自纽约的华人创业团队Cognition AI，可以像人类程序员一样自动写代码的Agent，你只需要告诉它你的需求就行，由于演示视频过于科幻，导致被人揭露造假。。行业的另一端，Google在今年的Next与I/O大会上，连续地发布了自己的Agent战略，并且把这个概念放在公司的AI Stack之上，Agent就是接下来Google App的衍生。配图2.05：Google Gemini Agent战略从客服Agent到员工Agent再到代码Agent，以及最新的Google Plan Search，可以自动化多步骤执行搜索任务的Agent。例如，你要找一下附近有折扣的理发店并帮你完成预约，那么新的Plan Search能理解你的需求，自动分解任务，然后调用Google Map还有其它工具，自动的完成你的请求。当然Google现在有底气这样做，还得仰仗Gemini 1.5 Pro的推理能力已经达到GPT-4的水平了。

码观 | 共识与非共识：从模型到应用，2024 AI 趋势回首与展望

应用形态重构Agent最接近魔法的AI术在人工智能的发展历程中，Agent（智能代理）一直是最令人着迷的概念之一。Agent技术在2024年实现了从概念到实践的关键突破。想象一下，当你对着手机说：“帮我给同事的朋友圈点赞”，AI就能识别屏幕，找到相应的按钮，完成操作。这不再是简单的语音助手，而是一个能真正理解和执行复杂指令的数字伙伴。这种进化令人惊叹，因为它展示了AI不仅能“听懂”，还能“思考”和“行动”。它会分析任务、规划步骤、选择工具，甚至在遇到问题时及时调整策略。这种能力让AI从一个被动的响应工具，进化成了一个主动的问题解决者。2024年，这样的场景从概念变为现实。Anthropic的Computer Use、智谱AI的AutoGLM，以及Google的Gemini 2.0，都展示了AI Agent的突破性进展。这些能力，在理论上，并不难实现。大模型可以识别屏幕中的像素点，通过足够多的训练数据，就可以理解朋友圈点赞是什么样的UI，调用系统工具，进行操作。但实际上，在过往，类似的Agent的能力，成功率并不高，泛化能力也不够强。训练模型只识别微信的UI容易，而所有App的UI都能识别则很难。同时模型进行自主操作也是难点——或者模型要成功控制无数标准化的工具，或者模型可以完全接管系统权限，直接模拟点击。这种接近成型的工程化的Agent核心在于四个关键能力的进展：

质朴发言：视觉-语言理解模型的当前技术边界与未来应用想象｜Z 研究第 2 期

GUI Agent类，将图像理解能力赋予Agent，应用于GUI界面，为Agent提供更强的视觉感知能力智谱CogAgentGoogle Gemini腾讯AppAgent多模态Agent框架智谱AI：CogAgentCogAgent是由清华大学和智谱AI共同开发的一种新型视觉语言模型（VLM）。这个模型专门设计用于理解和导航图形用户界面（GUI），并采用了低分辨率和高分辨率图像编码器的双编码器系统，能够处理和理解复杂的GUI元素和文本内容。Agent能力：能够针对任何给定的GUI屏幕截图返回计划、下一步操作以及具体操作坐标。它还增强了与GUI相关的问答能力，能够处理关于任何GUI屏幕截图的问题，如网页、PC应用程序、移动应用等。演示案例：CogAgent能够识别和解释小型GUI元素和文本，在PC和Android平台的GUI导航方面表现出色Google:Gemini