Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

谷歌agent

Answer

谷歌在今年的 Next 与 I/O 大会上连续发布了自己的 Agent 战略,并将其置于公司的 AI Stack 之上,Agent 成为接下来 Google App 的衍生。例如,从客服 Agent 到员工 Agent 再到代码 Agent,以及最新的 Google Plan Search,能够自动化多步骤执行搜索任务。如找附近有折扣的理发店并完成预约,它能理解需求、自动分解任务,调用 Google Map 等工具完成请求。这得益于 Gemini 1.5 Pro 的推理能力已达 GPT-4 水平。2024 年,Anthropic 的 Computer Use、智谱 AI 的 AutoGLM 以及 Google 的 Gemini 2.0 都展示了 AI Agent 的突破性进展。在应用场景方面,Google 的 Gemini 还涉及 GUI Agent 类,为 Agent 提供更强的视觉感知能力。

Content generated by AI large model, please carefully verify (powered by aily)

References

智变时代 / 全面理解机器智能与生成式 AI 加速的新工业革命

顺着推理引擎的思路,我们可以让LLM自己做自动化的多步骤推理,其间能自己使用搜索引擎,调用工具以及与其它LLM协作,Andrej的LLM OS中就包含了这些模块。最早实现这个想法原型的是AutoGPT还有BabyAGI两个开源的智能代理(AI Agent),就在去年GPT-4刚发布的时候,一时风靡全球科技圈,虽然产品非常原型和早期,但是它们给出了很好的解题思路。人类给出目标,LLM自己分解子目标,就像编程函数的递归调用那样,调用外部工具,自我评估任务是否完成,一步步实现整体目标。现在,随着LLM的推理能力和速度的提高,Agent的思路已经被很多创业公司还有科技巨头用到了自己的产品之中。例如,前段时间最受关注并且饱受非议的Devin,来自纽约的华人创业团队Cognition AI,可以像人类程序员一样自动写代码的Agent,你只需要告诉它你的需求就行,由于演示视频过于科幻,导致被人揭露造假。。行业的另一端,Google在今年的Next与I/O大会上,连续地发布了自己的Agent战略,并且把这个概念放在公司的AI Stack之上,Agent就是接下来Google App的衍生。配图2.05:Google Gemini Agent战略从客服Agent到员工Agent再到代码Agent,以及最新的Google Plan Search,可以自动化多步骤执行搜索任务的Agent。例如,你要找一下附近有折扣的理发店并帮你完成预约,那么新的Plan Search能理解你的需求,自动分解任务,然后调用Google Map还有其它工具,自动的完成你的请求。当然Google现在有底气这样做,还得仰仗Gemini 1.5 Pro的推理能力已经达到GPT-4的水平了。

码观 | 共识与非共识:从模型到应用,2024 AI 趋势回首与展望

应用形态重构Agent最接近魔法的AI术在人工智能的发展历程中,Agent(智能代理)一直是最令人着迷的概念之一。Agent技术在2024年实现了从概念到实践的关键突破。想象一下,当你对着手机说:“帮我给同事的朋友圈点赞”,AI就能识别屏幕,找到相应的按钮,完成操作。这不再是简单的语音助手,而是一个能真正理解和执行复杂指令的数字伙伴。这种进化令人惊叹,因为它展示了AI不仅能“听懂”,还能“思考”和“行动”。它会分析任务、规划步骤、选择工具,甚至在遇到问题时及时调整策略。这种能力让AI从一个被动的响应工具,进化成了一个主动的问题解决者。2024年,这样的场景从概念变为现实。Anthropic的Computer Use、智谱AI的AutoGLM,以及Google的Gemini 2.0,都展示了AI Agent的突破性进展。这些能力,在理论上,并不难实现。大模型可以识别屏幕中的像素点,通过足够多的训练数据,就可以理解朋友圈点赞是什么样的UI,调用系统工具,进行操作。但实际上,在过往,类似的Agent的能力,成功率并不高,泛化能力也不够强。训练模型只识别微信的UI容易,而所有App的UI都能识别则很难。同时模型进行自主操作也是难点——或者模型要成功控制无数标准化的工具,或者模型可以完全接管系统权限,直接模拟点击。这种接近成型的工程化的Agent核心在于四个关键能力的进展:

质朴发言:视觉-语言理解模型的当前技术边界与未来应用想象|Z 研究第 2 期

GUI Agent类,将图像理解能力赋予Agent,应用于GUI界面,为Agent提供更强的视觉感知能力智谱CogAgentGoogle Gemini腾讯AppAgent多模态Agent框架智谱AI:CogAgentCogAgent是由清华大学和智谱AI共同开发的一种新型视觉语言模型(VLM)。这个模型专门设计用于理解和导航图形用户界面(GUI),并采用了低分辨率和高分辨率图像编码器的双编码器系统,能够处理和理解复杂的GUI元素和文本内容。Agent能力:能够针对任何给定的GUI屏幕截图返回计划、下一步操作以及具体操作坐标。它还增强了与GUI相关的问答能力,能够处理关于任何GUI屏幕截图的问题,如网页、PC应用程序、移动应用等。演示案例:CogAgent能够识别和解释小型GUI元素和文本,在PC和Android平台的GUI导航方面表现出色Google:Gemini

Others are asking
AI Agent的具体应用场景,特别是职场办公场景
AI Agent 的具体应用场景如下: 1. 在职场办公场景中,主要应用场景包括研究总结和客户服务。 2. 个性化方面,随着用户的使用越来越了解用户习惯和想法,从而作出喜好预测。例如 Dot App 在对话中了解用户喜好,随后为用户推荐新的咖啡店。 3. 自主完成任务方面,如 Auto GPT,用户输入一个目标后,可自主执行任务、递归地开发和调试代码。 4. 多 Agent 协作方面,如斯坦福大学的 SmallVille(小镇)项目,25 个人工智能体居住在一个沙盒虚拟城镇中通过复杂的社交互动来执行他们的日常生活;Fixie AI 在收到用户请求后启动多个负责不同模块的 Agent 进行数据查询和传递,最终生成邮件内容给客户回复;博主林亦 LYi 的《AI 炒股?我开了一家员工全是 AI 的公司,自动帮我炒股》就在某种程度上实现了多 Agent 协作的能力。 5. 在企业服务方面,Brix 面向北美和欧洲企业,提供全球雇佣的 AI 驱动解决方案。通过 Hiring Agent,Brix 触达全球约 2000 万以上的人才,自动完成候选人筛选、简历分析和面试流程,帮助企业快速组建高效团队。通过 Working Agent 支持远程团队的智能化管理,为企业构建 100 至 500 人规模的全球化组织提供一站式解决方案。 6. 时来智能通过自研的 AI Agent 以及强化学习等技术,为线下餐饮服务门店提供全自动管理私域流量营销运营的解决方案。基于垂直场景数据训练的 AI 营销模型可以针对不同消费者实时生成并推送个性化的营销折扣方案,从而在优化营销成本的同时显著提升营销转化效果。 目前,AI Agent 应用大多集中在 2B 场景,面向个人消费者的产品少之又少。一方面是高度智能化的 Agent 能力需要打磨,概念落地还有较长一段距离;一方面是 AI 和娱乐消费诉求的结合还几乎没有,其主要带来的是生产方式变革和效率变革。个人消费者方向,目前只看到“私人助理”场景。
2025-03-17
agent
智能体(Agent)在人工智能和计算机科学领域是一个重要概念,指能够感知环境并采取行动以实现特定目标的实体,既可以是软件程序,也可以是硬件设备。 在 LLM 支持的自主 Agent 系统中,LLM 充当 Agents 的大脑,并辅以几个关键组成部分: 1. 规划:包括子目标和分解,将大型任务分解为更小的、可管理的子目标,以有效处理复杂任务。 2. 反思和完善:可以对过去的行为进行自我批评和自我反思,从错误中吸取教训,并针对未来的步骤进行完善,提高最终结果的质量。 3. 记忆:包含短期记忆,所有的上下文学习都是利用模型的短期记忆来学习;长期记忆,为 Agents 提供长时间保留和回忆(无限)信息的能力,通常通过利用外部向量存储和快速检索来实现。 4. 工具使用:Agents 学习调用外部 API 来获取模型权重中缺失的额外信息,包括当前信息、代码执行能力、对专有信息源的访问等。 以下是一些关于智能体 Agent 的相关目录: 1. 2. 3. 4. 5. 6. 从产品角度思考 Agent 设计: 1. Who:Agent 是谁?性格是什么?我们的 Agent 可以是一个历史新闻探索向导,其身份为历史新闻探索向导,性格知识渊博、温暖亲切、富有同情心,角色是主导新闻解析和历史背景分析。为使角色更加生动,可为 Agent 设计简短的背景故事,比如曾是一位历史学家,对世界上的重大历史事件了如指掌,充满热情,愿意分享知识。 2. 怎么写好角色个性: 角色背景和身份:编写背景故事,明确起源、经历和动机。 性格和语气:定义性格特点,如友好、幽默、严肃或神秘;确定说话方式和风格。 角色互动方式:设计对话风格,从基本问答到深入讨论。 角色技能:明确核心功能,如提供新闻解析、历史背景分析或心理分析;增加附加功能以提高吸引力和实用性。 正如《》所写:个性化定制的“虚拟伴侣”能得到用户的认可,这是因为精准地击中了许多年轻人无处可藏的孤独和焦虑,背后是年轻人渴望被理解、沟通和交流。美国心理学家 Robert Jeffrey Sternberg 提出了“爱情三角理论”,认为爱情包含“激情”“亲密”和“承诺”三个要素。激情是生理上或情绪上的唤醒,例如对某人有强烈的性或浪漫的感觉;亲密是一种相互依恋的感觉,通过相互联结带来的喜爱和相互沟通分享自己的所见所闻、喜怒哀乐来体现;承诺是决定建立长期稳定关系,融入对方生活,形成互助互惠的关系,代表着一种长相厮守的责任。
2025-03-17
ToB行业有什么关于AI Agent的应用场景
在 ToB 行业,AI Agent 有以下应用场景: 1. 人力资源领域:如 Brix 面向北美和欧洲企业,提供全球雇佣的 AI 驱动解决方案。通过 Hiring Agent,触达全球约 2000 万以上的人才,自动完成候选人筛选、简历分析和面试流程,帮助企业快速组建高效团队。通过 Working Agent 支持远程团队的智能化管理,为企业构建 100 至 500 人规模的全球化组织提供一站式解决方案。 2. 餐饮营销领域:时来智能通过自研的 AI Agent 以及强化学习等技术,为线下餐饮服务门店提供全自动管理私域流量营销运营的解决方案。基于垂直场景数据训练的 AI 营销模型可以针对不同消费者实时生成并推送个性化的营销折扣方案,从而在优化营销成本的同时显著提升营销转化效果,能帮助门店提升 50%100%的营销转化效果,以及相应提升平均 1520%的营业额。 3. 销售和供应链管理:嵌入企业流程,提升整体运营效率。 此外,AI Agent 具有以下特点: 1. 个性化:随着用户的使用越来越了解用户习惯和想法,从而作出喜好预测。例如 Dot App 在对话中了解用户喜好,随后为用户推荐新的咖啡店。 2. 自主完成任务:如 Auto GPT,用户输入一个目标后,可自主执行任务、递归地开发和调试代码。 3. 多 Agent 协作:例如斯坦福大学的 SmallVille(小镇)项目,25 个人工智能体居住在一个沙盒虚拟城镇中通过复杂的社交互动来执行他们的日常生活;Fixie AI 在收到用户请求后启动多个负责不同模块的 Agent 进行数据查询和传递,最终生成邮件内容给客户回复。 以下是一些 Agent 构建平台: 1. Coze:新一代的一站式 AI Bot 开发平台,适用于构建基于 AI 模型的各类问答 Bot,集成丰富插件工具拓展 Bot 能力边界。 2. Microsoft 的 Copilot Studio:主要功能包括外挂数据、定义流程、调用 API 和操作,以及将 Copilot 部署到各种渠道。 3. 文心智能体:百度推出的基于文心大模型的智能体(Agent)平台,支持开发者根据自身需求打造大模型时代的产品能力。 4. MindOS 的 Agent 平台:允许用户定义 Agent 的个性、动机、知识,以及访问第三方数据和服务或执行设计良好的工作流。 5. 斑头雁:2B 基于企业知识库构建专属 AI Agent 的平台,适用于客服、营销、销售等多种场景,提供多种成熟模板,功能强大且开箱即用。 6. 钉钉 AI 超级助理:依托于钉钉强大的场景和数据优势,提供更深入的环境感知和记忆功能,在处理高频工作场景如销售、客服、行程安排等方面表现出色。
2025-03-17
multi agents讲解
多智能体(MultiAgent)是由多个自主、独立的智能体(Agent)组成的系统。每个智能体都能感知环境、决策并执行任务,且它们之间能信息共享、任务协调与协同行动以实现整体目标。 随着大型语言模型(LLM)的出现,以 LLM 为核心构建的 Agent 系统受广泛关注。目前常见框架集中在单 Agent 场景,其核心是 LLM 与工具协同配合,可能需与用户多轮交互。而多 Agent 场景为不同 Agent 分配角色,通过协作完成复杂任务,与用户交互可能减少。 构建多 Agent 框架主要组成部分包括: 1. 环境:所有 Agent 处于同一环境,包含全局状态信息,Agent 与环境有信息交互与更新。 2. 阶段:采用 SOP 思想将复杂任务分解为多个子任务。 3. 控制器:可以是 LLM 或预先定义好的规则,负责环境在不同 Agent 和阶段间切换。 4. 记忆:因 Agent 数量增多,消息数量及每条消息的记录字段增加。 此外,吴恩达最新演讲提到四种 Agent 设计范式,Reflection 和 Tool Use 相对经典且广泛使用,Planning 和 Multiagent 较新颖有前景。Reflection 类似于 AI 自我纠错和迭代,如让 AI 写代码并自我检查修改。Tool Use 指大语言模型调用插件拓展能力。在一些场景中,Reflection 可用两个 Agent,一个写代码,一个 Debug。
2025-03-14
哪个agent可以制作图表?
以下是一些可以制作图表的 agent: Cursor:能够全自动写程序、装依赖、debug 等,为用户生成所需的图表,例如生成谷歌和亚马逊最近五年的股价对比图,以及对图片进行特定形状的处理。 E2b 团队:制作了。 共建者缱绻怡然:制作了中的 AI Agent 图谱。
2025-03-14
哪里可以找到开源的ai agent
以下是一些可以找到开源 AI Agent 的途径和相关信息: AutoGPT 和 BabyAGI 是最早实现让 LLM 自己做自动化多步骤推理的开源智能代理,在去年 GPT4 刚发布时风靡全球科技圈。 智谱·AI 开源了一些包含 Agent 能力的模型,如 AgentLM7B、AgentLM13B、AgentLM70B 等,相关信息和代码链接可在相应的平台获取。 Andrej 的 LLM OS 中包含了相关模块。 OpenAI 的研究主管 Lilian Weng 曾写过一篇博客《LLM Powered Autonomous Agents》介绍了 Agent 的设计框架。
2025-03-13
谷歌AI 生成访谈对话
以下是关于谷歌 AI 相关的信息: 谷歌推出的 NotebookLM ,有人称它为笔记工具,有人说它是 AI 学习工具,还有人认为它是播客生成器。体验地址:https://notebooklm.google/ 。只要上传文档、音频或感兴趣的网页链接,如 YouTube 链接,它就能生成专业的播客,其中两个主持人的对话生动自然,包含各种人类的语气和行为。 Character.ai 是一款由 Noam Shazeer 和 Daniel De Freitas 于 2022 年 9 月创建的基于 LLM 的聊天机器人网站。该网站预先创建了许多聊天角色,用户可以与之交流,也能自己创作角色。与 ChatGPT 不同,它更注重人格属性,试图满足社交、情感、陪伴、支持等需求,还支持创建房间,多人可用不同角色聊天。目前没有商业变现途径,但计划在不久的将来推出付费订阅模式,也可能采用广告支持模式。 生成式 AI Studio : 详细功能介绍: 创建对话:包括指定对话上下文、示例、测试对话。 集成到应用程序:提供 API 和 SDK ,需下载适合编程语言(如 Python 或 Curl )的 Vertex AI SDK ,按照示例代码和 API 文档将代码插入应用程序。 调整大型语言模型的挑战与解决方案: 挑战:微小的措辞或词序变化可能影响模型结果,模型响应可能不完全可预测,模型响应质量不一,微调大型模型可能耗时且成本高,为大模型提供服务可能涉及额外麻烦和成本。 解决方案:参数有效调整,通过仅训练一部分参数来减轻微调 LLM 的挑战,这些参数可能是现有模型参数的子集或全新的参数,例如向模型添加额外的层或额外的嵌入到提示中。
2025-03-17
你觉得谷歌浏览器中的免费AI有哪些
谷歌浏览器中的免费 AI 功能包括: 1. 智能组织标签页。 2. 借助文本生成图像模型生成个性化壁纸图片。 3. 写作辅助。 4. 免费 AI 编程助手 Gemini Code Assist 发布,每月免费提供 180,000 次代码补全,支持 Python、Java、Go、Rust 等全部语言,具备强大代码审查和智能聊天助手功能,兼容 VS Code 与 JetBrains IDE,拥有 128k 超长上下文窗口,能精准理解大型本地代码库。
2025-03-01
你觉得谷歌浏览器中的免费网页AI有哪些
以下是谷歌浏览器中一些常见的免费网页 AI 相关信息: 大语言模型方面: OpenAI 有 3.5 和 4 两个主要模型。3.5 模型于 11 月启动了当前的 AI 热潮,4.0 模型在春季首次发布,功能更强大。新的变种使用插件可连接到互联网和其他应用程序。Code Interpreter 是一个强大的 ChatGPT 版本,能运行 Python 程序。若未为 OpenAI 付费,只能使用 3.5 模型。除插件变种和暂时停用的带有浏览功能的 GPT4 版本外,这些模型未连接到互联网。 微软的 Bing 使用 4 和 3.5 的混合,通常是 GPT4 家族中首个推出新功能的模型,例如能创建和查看图像,且能在网页浏览器中阅读文档,并连接到互联网。 谷歌一直在测试自己的人工智能 Bard,由各种基础模型驱动,最近是 PaLM 2 模型。 Anthropic 发布了 Claude 2,其特点是有非常大的上下文窗口。 PDF 翻译方面: DeepL(网站):点击页面「翻译文件」按钮,上传 PDF、Word 或 PowerPoint 文件即可。 沉浸式翻译(浏览器插件):安装插件后,点击插件底部「更多」按钮,选择「制作双语 BPUB 电子书」、「翻译本地 PDF 文件」、「翻译 THML/TXT 文件」、「翻译本地字幕文件」。 Calibre(电子书管理应用):下载并安装 calibre,并安装翻译插件「Ebook Translator」。 谷歌翻译(网页):使用工具把 PDF 转成 Word,再点击谷歌翻译「Document」按钮,上传 Word 文档。 百度翻译(网页):点击导航栏「文件翻译」,上传 PDF、Word、Excel、PPT、TXT 等格式的文件,支持选择领域和导出格式(不过进阶功能基本都需要付费)。 彩云小译(App):下载后点击「文档翻译」,可以直接导入 PDF、DOC、DOCX、PPT、PPTX、TXT、epub、srt 等格式的文档并开始翻译(有免费次数限制且进阶功能需要付费)。 微信读书(App):下载 App 后将 PDF 文档添加到书架,打开并点击页面上方「切换成电子书」,轻触屏幕唤出翻译按钮。 请注意,以上内容由 AI 大模型生成,请仔细甄别。
2025-03-01
如何使用网站里的ai,是否需要谷歌浏览器
使用网站里的 AI 时,以下是一些相关情况: 对于某些情况,如遇到英文内容难以理解,可借助谷歌浏览器的一键翻译功能,也有许多其他浏览器插件提供类似服务。网络上有多种选择,稍作搜索即可找到。 在使用 Vertex AI 的生成式 AI 时,动手实验室是定时的且无法暂停,点击 Start Lab 按钮后计时器开始计时并显示 Google Cloud 资源可用时长。这是在真实云环境中的实验,会提供新的临时凭据用于登录和访问 Google Cloud。要完成此实验,需要使用标准互联网浏览器,推荐使用 Chrome 浏览器,并使用隐身或私人浏览器窗口运行,以防止个人账户和学生账户冲突导致额外费用。注意,如果已有个人 Google Cloud 帐户或项目,请勿用于本实验以免产生额外费用。 但并非所有网站里的 AI 都一定需要谷歌浏览器,具体取决于该网站的要求和设置。
2024-09-21