AI Agent 规划是一个复杂但关键的概念,主要包括以下方面:
在使用方面,AI Agent 的规划可以帮助其更高效、准确地完成任务,例如在多角色协作的场景中,不同角色的 Agent 相互协作,根据需求共同开发一个应用或者复杂程序。同时,OpenAI 的研究主管 Lilian Weng 提出了“Agent = LLM + 规划 + 记忆 + 工具使用”的基础架构,其中大模型 LLM 扮演了 Agent 的“大脑”。
[title]Inhai:Agentic Workflow:AI重塑了我的工作流如果大家使用Kimi Chat来查询某个问题,你会发现它会在互联网上检索相关内容,并基于检索结果进行总结分析,最后给出结论。这其实是大模型利用「网页搜索」工具的一个典型例子,同时你也会看到PPT中介绍了非常多的不同领域类型的工具,它其实是为大模型在获取、处理、呈现信息上做额外的补充。PlanningAgent通过自行规划任务执行的工作流路径,面向于简单的或者一些线性流程的运行。比如下图中:Agent会先识别男孩的姿势,并可能找到一个姿势提取模型来识别姿势,在接下来要找到一个姿势图像模型来合成一个新的女孩图像,然后再使用图像理解文本的模型,并在最后使用语音合成输出,完成这个流程任务。Multiagent Collaboration吴恩达通过开源项目ChatDev进行举例,你可以让一个大语言模型扮演不同的角色,比如让一个Agent扮演公司CEO、产品经理、设计师、代码工程师或测试人员,这些Agent会相互协作,根据需求共同开发一个应用或者复杂程序。AI Agent基本框架OpenAI的研究主管Lilian Weng曾经写过一篇博客叫做《LLM Powered Autonomous Agents》,其中就很好的介绍了Agent的设计框架,她提出了“Agent = LLM +规划+记忆+工具使用”的基础架构,其中大模型LLM扮演了Agent的“大脑”。Planning(规划)主要包括子目标分解、反思与改进。将大型任务分解为较小可管理的子目标处理复杂的任务。而反思和改进指可以对过去的行动进行自我批评和自我反思,从错误中学习并改进未来的步骤,从而提高最终结果的质量。Memory(记忆)
[title]AI Agent系列(二):Brain模块探究[heading2]七、规划规划是一个依赖于强大推理能力的复杂过程,通常涉及五种主要方法:任务分解、多计划选择、外部模块辅助规划、反思与改进以及记忆增强规划。以下是完整方向列表:|方向|描述|子类|代表性工作及年份|备注|<br>|-|-|-|-|-|<br>|任务分解|将复杂任务分解为简单子任务以简化问题。|分解优先|CoT[2022]、ReAct[2022]、HuggingGPT[2023]|分解优先方法在子任务间创建强关联,减少任务遗忘和幻觉风险。交错分解动态调整基于环境反馈,提高容错性,但可能导致LLM在后续子任务中出现幻觉。|<br>|多计划选择|生成多个备选计划并通过搜索算法选择最优计划执行。|多计划生成、最优计划选择|ToT[2023]、GoT[2023]、LLM-MCTS[2023]|多计划选择提供广泛的潜在解决方案探索。|<br>|外部模块辅助规划|引入外部规划器来提升规划过程,解决效率和可行性问题。|符号规划器、神经规划器|LLM+P[2023]、LLM-DP[2023]、DRRN[2015]|符号规划器基于符号推理模型,神经规划器基于训练数据。|<br>|反思与细化|通过反思和细化提高规划能力,纠正错误。|反思、细化|Reflexion[2023]、CRITIC[2023]、Self-Refine[2023]|反思帮助代理从错误中学习并改进计划。|<br>|记忆增强规划|利用额外记忆模块增强规划能力,存储有价值的信息。|RAG-based Memory、Embodied Memory|REMEMBER[2023]、MemoryBank[2023]|记忆增强规划提升代理的规划能力和容错性。|下面我们来详细谈谈每种规划研究方向的详细内容:
[title]AI-Agent系列(一):智能体起源探究[heading2]十、基于LLM的AI Agent[heading3]10.1大脑模块(Brain)��力的关注点:|类别|子类别|描述|<br>|-|-|-|<br>|自然语言交互|多轮对话能力|LLM能理解自然语言并生成连贯且与上下文相关的回复,帮助Agent进行有效交流。|<br>||生成能力|LLM展示卓越的自然语言生成能力,可生成高质量文本。|<br>||意图理解|LLMs能够理解人类意图,但模糊指令可能带来挑战。|<br>|知识|语言知识|包括词法、句法、语义学和语用学,使Agent能理解句子和进行对话。|<br>||常识知识|世界常识,如药和伞的用途,帮助Agent做出正确决策。|<br>||专业领域知识|特定领域的知识,如编程、医学,对解决领域内问题至关重要。|<br>||潜在问题|知识可能过时或错误,需通过重新训练或编辑LLM解决。|<br>|记忆|记忆机制|存储过去的观察、思考和行动,帮助Agent处理连续任务。|<br>||记忆提升策略|包括提高输入长度限制、记忆总结、用向量或数据结构压缩记忆。|<br>||记忆检索|Agent检索记忆以访问相关信息,包括自动检索和交互式记忆对象。|<br>|推理和规划|推理|基于证据和逻辑,对解决问题、决策至关重要。|<br>||规划|组织思维、设定目标和确定实现目标的步骤。|<br>||计划制定|分解任务、制定计划,包括一次性全面分解和自适应策略。|