AI 智能体(Agents)是人工智能领域中一个重要的概念:
OpenAI在其内部会议上分享了关于通用人工智能(AGI)的五个发展等级。OpenAI自2015年成立以来,一直将AGI作为其战略目标之一,随着ChatGPT、多模态大模型和AI Agent等技术的发展,我们似乎越来越接近实现这一目标。AGI的五个等级分别为:1.聊天机器人(Chatbots):具备基本对话能力的AI,主要依赖预设脚本和关键词匹配,用于客户服务和简单查询响应。2.推理者(Reasoners):具备人类推理水平的AI,能够解决复杂问题,如ChatGPT,能够根据上下文和文件提供详细分析和意见。3.智能体(Agents):不仅具备推理能力,还能执行全自动化业务的AI。目前许多AI Agent产品在执行任务后仍需人类参与,尚未达到完全智能体的水平。4.创新者(Innovators):能够协助人类完成新发明的AI,如谷歌DeepMind的AlphaFold模型,可以预测蛋白质结构,加速科学研究和新药发现。5.组织(Organizations):最高级别的AI,能够自动执行组织的全部业务流程,如规划、执行、反馈、迭代、资源分配和管理等。
agent算是从年前到现在,比较火的一个概念了,也被很多人认为是大模型的未来的一个主要发展方向。首先我们看这个很经典的一张图看起来还是蛮复杂的,然后市面上的很多描述agent的文章写的也比较复杂,说智能体是啥智能的最小单元,相较于copilot,是可以给他设定一个目标后主动完成任务的等等。当然这些说法都没错,但是我觉得还是有些不好理解的。所以我们依然先从原理着手去理解下,agent是个什么东西。首先这张图里,中间的“智能体”,其实就是llm,或者说大模型。四个箭头,分别是我们为llm增加的四个能力。工具、记忆、行动、规划。那么这个是怎么新增的呢?目前行业里主要用到的是一个叫langchain的框架,这个框架可以简单理解为,他把llm和llm之间,以及llm和工具之间,通过代码或prompt的形式,进行了串接。这个其实也像是在rag的基础上再进了一步。因为我们知道rag其实是给了大模型一个浏览器工具来使用嘛,那agent,其实就是给了大模型更多的工具。比如像是长期记忆,其实就是给了大模型一个数据库工具让其往里记录重要信息。规划和行动,其实就是在大模型的prompt层做的些逻辑,比如让其将目标进行每一步的拆解,拆解完成后,每一步去输出不同的固定格式action指令,给到工具作为输入。当然langchain或者说agent还不止这些,也会有很多其他的代码逻辑体现在其中,不过其主要的主干逻辑,其实还是在prompt层和工具层,完成的设计。
核心思想:心灵社会理论认为,智能是由许多简单的Agent(分等级、分功能的计算单元)共同工作和相互作用的结果。这些Agent在不同层次上执行不同的功能,通过协作实现复杂的智能行为。多重层次:心灵社会将智能划分为多个层次,从低层次的感知和反应到高层次的规划和决策,每个层次由多个Agent负责。功能模块:每个Agent类似于功能模块,专门处理特定类型的信息或执行特定任务,如视觉处理、语言理解、运动控制等。分布式智能:智能不是集中在单一的核心处理单元,而是通过多个相互关联的Agent共同实现。这种分布式智能能够提高系统的灵活性和鲁棒性,应对复杂和多变的环境。同时,在《心灵社会》中,明斯基还详细描述了不同类型的Agent及其功能:专家Agent:拥有特定领域知识和技能的Agent,负责处理复杂的任务和解决特定问题。管理Agent:协调和控制其他Agent的活动,确保整体系统协调一致地运行。学习Agent:通过经验和交互,不断调整和优化自身行为,提高系统在不断变化环境中的适应能力。从达特茅斯会议开始讨论人工智能(Artificial Intelligence),到马文·明斯基引入“Agent”概念,到这里,“AI”和“Agent”就彻底聚齐了。往后,我们都将其称之为AI Agent。