AI Agent 已经在以下场景得到落地应用:
例如,AutoGLM 能够根据用户意图准确选择合适的应用场景,如“帮我买一杯咖啡”时打开美团,“帮我买一包咖啡豆”时打开淘宝。但目前仍存在一些问题,如语音识别有时偏差、复杂界面操作稳定性待提升、仅支持安卓等,不过这些可通过技术迭代解决。
大型语言模型(LLM)以其令人瞩目的新能力,赢得了业界的广泛关注和赞誉,激发了研究人员探索其在构建人工智能Agent方面的潜力。这些模型被巧妙地置于Agent的"大脑"或"控制器"的核心位置,赋予它们强大的语言理解和生成能力。为了进一步扩展这些Agent的感知和行动范围,研究人员采用了多模态感知技术和工具利用策略,使Agent能够理解和响应多种类型的输入,并有效地与环境互动。通过思维链(Chain of Thought)和问题分解技术,这些基于LLM的Agent展现出了与符号主义Agent相媲美的推理和规划能力。这些Agent还能够通过从反馈中学习,并执行新的行动来与环境互动,表现出类似反应式Agent的特性。它们在大规模语料库上进行预训练,并通过少量样本展现出泛化能力,这使得它们能够在不同任务之间实现无缝转移,而无需更新模型参数。基于LLM的Agent已经在软件开发、科学研究等现实世界场景中得到应用。它们利用自然语言理解和生成的能力,能够与其他Agent进行无缝的交流和协作,甚至在竞争中也能发挥重要作用。时间:21世纪10年代至今特点:基于大规模神经网络,特别是Transformer架构技术:Llama,GPT等预训练大型语言模型优点:强大的语言理解,生成和对话能力缺点:计算资源消耗大,可能存在偏见和误解
|技术名称|应用场景|技术类型|简介|主要特点|工作原理|其他|官方网站|项目及演示|论文|Github|在线体验|附件|最后更新时间||-|-|-|-|-|-|-|-|-|-|-|-|-|-||AppAgent:让AI模仿人类在手机上操作APP|通过appagent的模仿能力不断提升,<br>对于之后模仿数据的反利用也有不错的应用场景,<br>例如互联网或AI或涉及到原型+UE的工作都可以在基于模仿数据的基础上进行反推,<br>进而让设计出的产品原型和UE交互更优解。|AI学习模型|AppAgent可以通过自主学习和模仿人类的点击和滑动手势,能够在手机上执行各种任务。<br>它可以在社交媒体上发帖、帮你撰写和发送邮件、使用地图、在线购物,甚至进行复杂的图像编辑...<br>AppAgent在50个任务上进行了广泛测试,涵盖了10种不同的应用程序。<br>该项目由腾讯和德州大学达拉斯分校的研究团开发。|主要功能特点:<br>-多模态代理:AppAgent是一个基于大语言模型的多模态代理,它能够处理和理解多种类型的信息(如文本、图像、触控操作等)。这使得它能够理解复杂的任务并在各种不同的应用程序中执行这些任务。<br>-直观交互:它能通过模仿人类的直观动作(如点击和滑动屏幕)来与智能手
经过几天的深度测试,AutoGLM给我留下了深刻的印象。它让我看到了AI Agent真正落地的希望。还记得一年前,当我第一次尝试开发类似功能时,遇到的种种困境:API对接难、多模态识别差、操作不精准...这些问题让人觉得AI Agent离真正可用还很遥远。但AutoGLM用一种巧妙的方式解决了这些难题。它没有执着于传统的API集成路线,而是借助RPA的思路,通过模拟人类操作来实现跨应用的控制。这种方案虽然不完美,但确实让AI Agent从实验室走向了现实。在测试过程中,最让我惊喜的是它的场景理解能力。当我说"帮我买一杯咖啡"和"帮我买一包咖啡豆"时,它能准确地分别打开美团和淘宝。这不是简单的规则匹配能力可以实现的。它展现出了真正的智能理解能力,能够根据用户意图选择最合适的应用场景。当然,AutoGLM现在离好用还差很长的路。语音识别有时会出现偏差,复杂界面下的操作稳定性还需提升,只支持安卓也限制了不少用户。但这些都是可以通过技术迭代来解决的问题。重要的是,它已经证明了AI Agent落地是可行的。我特别欣赏智谱团队的产品思路。他们没有一上来就追求全能,而是选择了几个高频场景深耕细作。点外卖、写点评、看公众号,这些看似简单的日常操作,背后其实涉及复杂的技术难题。能把这些场景做好,已经足够证明产品的价值。展望未来,我觉得AutoGLM的发展空间还很大。随着多模态理解能力的提升,支持场景会越来越丰富;随着操作精准度的提高,用户体验会越来越自然。它的出现,或许会改变我们与手机交互的方式,就像当年第一款智能手机改变了我们的生活一样。