AI 智能体由以下四大组成部分构成:
完全自主智能体由四个元素组成,它们组合起来达到了完全主体能力:推理、外部记忆、执行和规划。推理。在最基本的层面上,智能体人必须能够对非结构化数据进行推理。基础模型如[Anthropic](https://menlovc.com/portfolio/anthropic/)*和OpenAI已经非常有效地实现了这一点,其中包括一个部分的世界模型编码到LLMs的预训练权重中,用于一般知识和基本逻辑。外部内存。除了一般知识,智能体还需要外部内存来存储和调用特定于域的知识以及他们被要求解决的问题的有限上下文,通常通过像[Pinecone](https://menlovc.com/portfolio/pinecone/)*这样的向量数据库。执行。智能体人使用工具来执行增强其解决问题能力的任务。许多早期的智能体人平台提供了预定义在代码中的自定义操作工具箱,供他们的智能体人选择。但也开始出现一些通用的智能体人工具,包括网络浏览、代码解释、身份验证和授权,以及与客户关系管理和企业资源计划等企业系统的连接,以在这些系统内执行用户界面操作。规划。不是试图通过单一顺序的下一个词预测(就像一次性写完一篇整篇文章,从第一个词开始不停下来直到最后一个词)来解决复杂的问题,智能体商遵循更人性化的思维过程,将工作分解成更小的子任务和计划,反思进度并根据需要进行调整。
很明确,未来的完全自主智能体可能会拥有所有四个构建块,但今天的LLM应用程序和智能体还没有达到这个水平。例如,流行的RAG架构不是智能体式的,而是以推理和外部记忆作为其基础。一些设计,如[OpenAI的结构化输出](https://openai.com/index/introducing-structured-outputs-in-the-api/)甚至支持工具使用。但重要的区别在于,这些应用程序将LLM作为语义搜索、综合或生成的"工具",但它们采取的步骤(即逻辑流)仍由代码预先确定。对比来说,当您将LLM置于应用程序的控制流中并让它动态决定要采取的行动、要使用的工具以及如何解释和响应输入时,智能体就会出现。只要这是真的,有些智能体甚至不需要与外部工具交互或采取行动。在Menlo,我们确定了三种不同主要用例和应用程序进程控制自由度的智能体类型。受到最严格限制的是"决策智能体"设计,它们使用语言模型来遍历预定义的决策树。"轨道智能体"则提供了更大的自由度,为智能体配备了更高层次的目标,但同时限制了解决空间,要求遵循标准作业程序并使用预先设定的"工具"库。最后,在光谱的另一端是"通用人工智能体"——本质上是没有任何数据支架的for循环,完全依赖于语言模型的推理能力来进行所有的计划、反思和纠正。以下,我们将探讨五种参考架构和每种智能体类型的人工智能体示例。
OpenAI在其内部会议上分享了关于通用人工智能(AGI)的五个发展等级。OpenAI自2015年成立以来,一直将AGI作为其战略目标之一,随着ChatGPT、多模态大模型和AI Agent等技术的发展,我们似乎越来越接近实现这一目标。AGI的五个等级分别为:1.聊天机器人(Chatbots):具备基本对话能力的AI,主要依赖预设脚本和关键词匹配,用于客户服务和简单查询响应。2.推理者(Reasoners):具备人类推理水平的AI,能够解决复杂问题,如ChatGPT,能够根据上下文和文件提供详细分析和意见。3.智能体(Agents):不仅具备推理能力,还能执行全自动化业务的AI。目前许多AI Agent产品在执行任务后仍需人类参与,尚未达到完全智能体的水平。4.创新者(Innovators):能够协助人类完成新发明的AI,如谷歌DeepMind的AlphaFold模型,可以预测蛋白质结构,加速科学研究和新药发现。5.组织(Organizations):最高级别的AI,能够自动执行组织的全部业务流程,如规划、执行、反馈、迭代、资源分配和管理等。