行业智能体包括以下方面:
当我们人类看到一个桌上的水杯,大脑就会自动计算它在三维空间中的位置,以及它与桌子和周围一切事物的关系,还会预测接下来会发生什么。行动的冲动是所有空间智能生命形式所固有的,它将感知与行动联系起来。一个具有空间智能的AI,它也能自动做类似的预测与行动冲动。空间智能将推动AI系统获得具身智能(Embodied Intelligence),能够像生物一样与环境互动,FSD就是典型的例子,现在Tesla正通过其改进版本来驱动Optimus机器人,Elon Musk在Tesla最近一次财报电话会上说今年底就计划让Optimus能够在Gigafactroy代替人类干点活。不过Nvidia有一个更宏大的计划,这是今年GTC上的One More Thing,他们计划推出GR00T项目,一个通用智能体(Foundation Agent)。其目标是为通用的人形机器人构建基础模型,使其能在不同实体之间迁移,训练过程类似OpenAI训练GPT-4,通过在海量环境中训练来获得通用性,这里就要用到我们在上一小节中提及的Isaac Sim来创造GPU加速的虚拟世界。Nvidia将通过它来以1000倍速运行物理模拟,生成无限复杂精细的虚拟世界,正所谓AI不用一天,人间就得一年。。这个项目的负责人Jim Fang在一次TED演讲上概括了通用智能体的三大特征:能在开放世界中探索;拥有海量世界知识;能执行无数任务;
我们将探讨的第一类智能体是决策智能体,它们使用智能体决策制定在复杂、多步骤的推理流程中导航并做出业务决策。与RAG或工具使用方法不同,这种架构首次将一定的控制逻辑交给LLMs,而不是预先设定所有步骤-但仍位于智能体自由度范围的较低端,因为智能体主要作为路由器导航一组预先确定的决策树。让我们以[Anterior](https://www.anterior.com/)(前称Co:Helm)为例。该健康计划自动化公司开发了一个临床决策引擎,用于自动化理赔提交审核。护士们如今凭借装满条件知识(就像世界上最无聊的"自选冒险")的付款人规则手册,人工完成这些审核。Anterior简化了这个过程。该公司首先将付款方规则转换为有向无环图(DAG),使用基于规则的脚本和语言模型。然后,他们的智能体遍历这个决策树,在每个节点利用LLMs来评估相关的临床文件是否符合特定的规则。对于较简单的节点,这可能涉及基本的检索增强型生成(RAG)步骤。但是,Anterior经常遇到需要子链的更复杂的任务,在这种情况下,智能体必须选择最佳方法,然后才能进入下一个节点。它会在每次决策时更新自己的状态(在内存中管理这些中间输出),并一直进行到最终确定。前者并非独一无二的采取这种方法。其他领域也在利用决策智能体,包括[Norm AI](https://norm.ai/)正在为监管合规打造AI智能体,以及[Parcha](https://www.parcha.com/)正在为KYC建立智能体。
生成式AI应用当前有三个核心用例与强大的产品市场契合度:搜索、合成和生成。Menlo Ventures投资组合公司如[Sana](https://menlovc.com/portfolio/sana-labs/)*(企业搜索)、[Eve](https://menlovc.com/portfolio/eve/)*(法律研究副驾驶)和[Typeface](https://menlovc.com/portfolio/typeface/)*(内容生成AI)在这些类别中都是早期突破性的代表,其中心是LLMs的少样本推理能力。但是生成式人工智能的承诺远远超越了这第一波核心使用案例。能为您阅读和写作的人工智能很棒,但更令人兴奋的是能够代表您思考和行动的人工智能。为此,我们已经看到领先的应用程序构建商如[Anterior](https://www.anterior.com/)、[Sema4](https://sema4.ai/)和[Cognition](https://www.cognition.ai/)正在建立解决方案,来处理之前只能由大量人力来解决的工作流程。借助多步逻辑、外部内存以及访问第三方工具和API等新型构建块,下一波智能体正在拓展AI能力的边界,实现端到端流程自动化。在我们深入探讨人工智能体领域的过程中,我们将概述Menlo对新兴市场的论点——首先定义什么是智能体以及什么使它们成为可能。我们将追溯[现代人工智能技术栈](https://menlovc.com/perspective/the-modern-ai-stack-design-principles-for-the-future-of-enterprise-ai-architectures/)从少量样本指令到检索增强型生成(RAG)再到完备的智能体系统的架构演化过程,然后探讨这一范式转变对应用和基础设施层面的影响。