Chat with Wiki - 能否整理AI AGENT的架构图

Answer

AI Agent 的架构主要包括以下部分：

中间的“智能体”通常是 LLM（大语言模型）。
为 LLM 增加的四个能力分别是工具、记忆、行动和规划。
- 工具：通过如 Langchain 框架将 LLM 与工具进行串接，例如给大模型提供数据库工具用于长期记忆。
- 记忆：让大模型能够记录重要信息。
- 规划：在大模型的 prompt 层进行目标拆解。
- 行动：每一步拆解后输出不同的固定格式 action 指令给工具作为输入。

AI Agent 是一个融合了语言学、心理学、神经学、逻辑学、社会科学、计算机科学等多个学科精髓的综合实体，不仅有实体形态，还有丰富的概念形态，具备许多人类特有的属性。这些学科大多以人为研究对象，探索人类内在本质。但网络上对其的介绍往往晦涩难懂，其自主性、学习能力、推理能力等核心概念，以及如何规划和执行任务、理解和处理信息等内容常笼罩在神秘面纱之下。

Content generated by AI large model, please carefully verify (powered by aily)

References

Ranger：【AI 大模型】非技术背景，一文读懂大模型（长文）

agent算是从年前到现在，比较火的一个概念了，也被很多人认为是大模型的未来的一个主要发展方向。首先我们看这个很经典的一张图看起来还是蛮复杂的，然后市面上的很多描述agent的文章写的也比较复杂，说智能体是啥智能的最小单元，相较于copilot，是可以给他设定一个目标后主动完成任务的等等。当然这些说法都没错，但是我觉得还是有些不好理解的。所以我们依然先从原理着手去理解下，agent是个什么东西。首先这张图里，中间的“智能体”，其实就是llm，或者说大模型。四个箭头，分别是我们为llm增加的四个能力。工具、记忆、行动、规划。那么这个是怎么新增的呢？目前行业里主要用到的是一个叫langchain的框架，这个框架可以简单理解为，他把llm和llm之间，以及llm和工具之间，通过代码或prompt的形式，进行了串接。这个其实也像是在rag的基础上再进了一步。因为我们知道rag其实是给了大模型一个浏览器工具来使用嘛，那agent，其实就是给了大模型更多的工具。比如像是长期记忆，其实就是给了大模型一个数据库工具让其往里记录重要信息。规划和行动，其实就是在大模型的prompt层做的些逻辑，比如让其将目标进行每一步的拆解，拆解完成后，每一步去输出不同的固定格式action指令，给到工具作为输入。当然langchain或者说agent还不止这些，也会有很多其他的代码逻辑体现在其中，不过其主要的主干逻辑，其实还是在prompt层和工具层，完成的设计。

AI-Agent系列(一)：智能体起源探究

更系列文章合集请访问：[蓝衣剑客-AIGC思维火花](https://waytoagi.feishu.cn/wiki/IYtowrzONiysdTkeA5QcEraxntc)[heading2]一、前言[content]本文主要向大家讲述智能体的概念、渊源和发展历史，帮助大家对智能体这一概念奠定一个正确认知。[heading2]二、很多人其实并不知道AI Agent是什么[content]打开浏览器，搜索"什么是AI Agent"，我们将会得到如下结果：图2.1.1在Bing上搜索“什么是AI Agent”行吧，我们再来问问Kimi什么是AI Agent:图2.1.2问问Kimi"什么是AI Agent?"我耗费了2分钟，却仿佛在寻找一场空欢喜。这就是所谓的AI Agent吗？......罢了，我还是自己寻找答案吧。通过必应和Kimi的搜索，我们发现网络上对AI Agent的介绍往往显得晦涩难懂，仿佛AI Agent是从石头缝儿里蹦出来的一样，神秘莫测。AI Agent的自主性、学习能力、推理能力等核心概念，以及它们如何规划和执行任务，如何理解并处理信息，这些内容似乎都笼罩在一层神秘的面纱之下。这种神秘感让我们仿佛置身于一个赛博朋克的世界，让我们不禁怀疑，是否我们已经生活在了一个充满未来科技的时代？未来是否真的已经到来？在深入探讨AI agent之前，我们首先需要对其进行定义和总结。AI Agent是一个融合了语言学、心理学、神经学、逻辑学、社会科学、计算机科学等多个学科精髓的综合实体。它不仅拥有实体形态，更蕴含着丰富的概念形态，同时它还具备了许多人类特有的属性。因为这些学科大多以人为研究对象，致力于探索人类内在的本质。

AI-Agent系列(一)：智能体起源探究