Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

rag 多智能体

Answer

多智能体(Multi-Agent)是由多个自主、独立的智能体(Agent)组成的系统。在这个系统中,每个智能体都能感知环境、进行决策并执行任务,且它们之间可进行信息共享、任务协调与协同行动以实现整体目标。

随着大型语言模型(LLM)出现,以 LLM 为核心构建的 Agent 系统受广泛关注。Agent 系统会为不同 Agent 分配角色和任务信息,并配备工具插件以完成复杂任务。目前常见框架多集中在单 Agent 场景,其核心在于 LLM 与工具协同配合,可能需与用户多轮交互。同时,更多 Agent 框架开始关注多 Agent 场景,会为不同 Agent 指定角色并通过协作完成复杂任务,与用户交互可能减少。

构建多 Agent 框架,需考虑相对于单 Agent 增加的组件,如:

  1. 环境(environment):所有 Agent 处于同一环境,环境含全局状态信息,Agent 与环境有信息交互与更新。
  2. 阶段(stage):现有多 Agent 框架常采用 SOP 思想,将复杂任务分解为多个子任务。
  3. 控制器(controller):可以是 LLM 或预先定义好的规则,负责环境在不同 Agent 和阶段间切换。
  4. 记忆:多 Agent 框架中因 Agent 数量增多,消息数量及相关字段增多。

OpenAI 官方开源多智能体框架「Swarm」,其优势在于处理了不同智能体之间通信的“交接”逻辑。例如构建客服多智能体,可能只需准备普通接线客服和宽带客服两个 Agent。

另外,轨道智能体是一类更高级的智能体,被赋予更高级目标和更多自由度,仍受程序性知识指导,拥有预定义工具并受约束。运行时会产生特定模式,可能需要额外数据基础设施支持。

Content generated by AI large model, please carefully verify (powered by aily)

References

问:Multi-Agent是什么

随着大型语言模型(LLM)的出现,以LLM为核心构建的Agent系统近期受到了广泛关注。Agent系统旨在利用LLM的归纳推理能力,为不同的Agent分配角色和任务信息,并配备相应的工具插件,以完成复杂的任务。目前,更常见的框架主要集中在单Agent场景下。单Agent的核心在于LLM与工具的协同配合。LLM根据用户任务的理解,推理出需要调用的工具,并根据调用结果向用户提供反馈。在任务完成过程中,Agent可能需要与用户进行多轮交互。与此同时,越来越多的Agent框架开始关注多Agent场景。为了完成任务,多Agent会为不同的Agent指定不同的角色,并通过Agent之间的协作来完成复杂的任务。与单Agent相比,在任务完成过程中,与用户的交互可能会减少一些。[heading2]主要组成部分[content]为构建一个多Agent框架,我们需要思考相对于单Agent,框架中增加了哪些组件。环境(environment):所有Agent应该处于同一个环境中。环境中包含全局状态信息,Agent与环境之间存在信息的交互与更新。阶段(stage):为了完成复杂任务,现有多Agent框架通常采用SOP思想,将复杂任务分解为多个子任务。控制器(controller):控制器可以是LLM,也可以是预先定义好的规则。它主要负责环境在不同Agent和阶段之间的切换。记忆:在单Agent中,记忆只包括用户、LLM回应和工具调用结果等部分。而在多Agent框架中,由于Agent数量增多,导致消息数量增多。同时,每条消息可能需要记录发送方、接收方等字段。

突发!OpenAI官方开源多智能体框架「Swarm」

[title]突发!OpenAI官方开源多智能体框架「Swarm」[heading1]为啥用Swarm的多智能体脚趾头:因为是OpenAI出的。(君不见现在大多数大模型都在遵循OpenAI的接口规范...他们对自己做的东西更了解)脑门:其实单Agent这块,没有啥花里胡哨的东西,简单业务,OpenAI就一个/api/completions接口。但是「Handoffs」这块,Swarm的确做的非常优雅。(这里不得不给自己吹个牛,年初我就写了Swarm类似的多智能体了。)多智能体的核心难题其实是不同智能体之间的通信问题。怎麼传递,传哪些信息,这些都很重要。其实之前很多多智能体开源框架,走的都是Room/Group的思路,就是把各个智能体都扔到一个大空间里,然后每个智能体都接收信息,每个智能体都存储信息。不说效率低下,光token的消耗都扛不住。实际上,多智能体,也只要在必要的时候被call起就可以,回到我们上文10086客服的例子。当接线小姐姐识别到这是个宽带问题需要转接的时候,她需要做2个事情:1.找到宽带部门的小姐姐,把会话权限交接过去;2.把记录「Messages」和我的问题「Query」交接过去(实际上会自动记录,共享查阅)那如果我们需要构建这样的一个客服多智能体,是不是只需要准备两个Agent:一个普通接线客服,一个宽带客服。Swarm的「Handoffs」处理了交接的逻辑。下面我用官方的例子魔改一下客服例子,方便大家理解。执行这段代码,打印出来的对话记录就可能会是是不是就变得非常清晰了?总得来说就是:

AI 智能体:企业自动化的新架构 - Menlo Ventures

[title]AI智能体:企业自动化的新架构- Menlo Ventures[heading3]轨道上的智能体人我们下一类要研究的智能体是轨道智能体。与决策智能体相比,轨道智能体被赋予了更高级的目标(例如,"将此发票与总账调节"、"帮助客户解决登录问题"、"重构此代码"),并赋予了更多自由度来选择实现这些目标的方法和工具。与此同时,这些智能体仍受程序性知识的指导,了解组织期望智能体如何执行(以自然语言编写的规则手册或说明手册表示的"轨道");拥有预定义的工具,可在外部软件系统中执行一组操作;并受到防止幻觉的保护栏和其他审查措施的约束。在运行时,这种设计可能会产生以下模式:规划智能体评估应用程序相对于手册(即当前位于DAG中的哪个节点)的当前状态,并检查从该节点开始的所有动作链。智能体人选择并执行最佳链条。每个链条可能包括预定义为代码的预写操作,或者甚至包括可执行特定任务的额外智能体人,包括传统的RAG。在采取任何行动之前,该系统都会进行审查和确保一致性和一致性的护栏规划智能体根据规则手册评估新状态,并重复该过程——从有向无环图中的新节点中选择最佳链来再次执行。请注意,这种架构为之前的设计增加了另一层复杂性,这可能需要额外的数据基础设施支持,包括持久化执行、状态和内存管理(包括情节性、工作和长期记忆)、多智能体协调以及防护机制。

Others are asking
RAG-Fusion
RAG(检索增强生成)是由 Lewis 等人于 2020 年中期提出的一种大语言模型领域的范式。 大型语言模型如 GPT 系列虽在自然语言处理方面取得显著成功,但仍存在局限性,如处理特定领域或高度专业化查询时易产生错误信息或“幻觉”,尤其在查询超出训练数据或需要最新信息时。 RAG 将外部数据检索整合到生成过程中,包括初始的检索步骤,查询外部数据源获取相关信息后再回答问题或生成文本,这不仅为后续生成提供信息,还能确保回答基于检索证据,从而显著提高输出的准确性和相关性。其演进轨迹分为四个阶段。 在 2017 年创始阶段,重点是通过预训练模型吸收额外知识增强语言模型。 RAG 能解决大语言模型知识局限性、幻觉问题和数据安全性等问题,可让大模型从权威知识源检索组织相关信息,更好控制文本输出,且能与微调结合使用。但 RAG 不适合教模型理解广泛领域或学习新语言、格式或样式。 LangChain 是用于构建高级语言模型应用程序的框架,提供一系列工具和组件,RAG 作为技术可在 LangChain 框架内实施利用,两者关系包括:LangChain 提供实现 RAG 必需的工具和组件;允许通过模块化组件构建 RAG 应用;简化 RAG 应用开发过程;利用其实现 RAG 可提高性能;支持构建复杂的 RAG 应用。
2025-01-02
rag高级优化
以下是关于 RAG 高级优化的相关内容: RAG 是一种结合信息检索和文本生成能力的技术,由检索器和生成器两部分组成。在生成式 AI 的发展中,RAG 发挥着重要作用。 在模型开发方面,新兴的推理技术如连锁思考、树状思考和反射正在提高模型执行更复杂推理任务的能力,缩小客户期望与模型能力的差距。迁移学习技术如 RLHF 和微调变得更加可用,开发者可从 Hugging Face 下载开源模型并微调以实现优质性能。检索增强生成(RAG)引入关于业务或用户的上下文,减少幻觉并增加真实性和实用性,像 Pinecone 这样的公司的向量数据库成为 RAG 的基础设施支柱。新的开发者工具和应用框架为创建更先进的 AI 应用提供了帮助。 对于 RAG 的改进策略和方法,在检索有用信息方面,可通过优化索引来实现。比如按照子部分索引,将文本块再拆分为较小的文本进行多次索引,适用于有多个主题和冲突信息的复杂长文本;按照文本框可以回答的问题索引,让 LLM 生成假设性问题用于索引,适用于用户问题不明确的场景;按照文本块的摘要进行索引,适用于文本框中有多余或无关细节的情况。此外,在重排 rerank 方面,大部分场景下选择最相似的信息即可。 在商业化问答场景中,有时大模型的回答会不准确,如出现牛头不对马嘴、报价错误、胡编乱造等情况。优化 AI 更准确回答问题的过程称为 RAG,了解从“问题输入”到“得到回复”的过程,针对每个环节逐个调优,可达到最佳效果。
2025-01-02
RAG优化
RAG(RetrievalAugmented Generation,检索增强生成)是一种结合检索和生成能力的自然语言处理架构。 大语言模型(LLM)需要 RAG 进行检索优化,原因在于 LLM 存在一些缺点: 1. LLM 无法记住所有知识,尤其是长尾知识,对其接受能力不高。 2. LLM 的知识容易过时且不好更新,微调效果不佳且有丢失原有知识的风险。 3. LLM 的输出难以解释和验证,存在黑盒、不可控及受幻觉干扰等问题。 4. LLM 容易泄露隐私训练数据。 5. LLM 的规模大,训练和运行成本高。 RAG 具有以下优点: 1. 数据库对数据的存储和更新稳定,无学习风险。 2. 数据库的数据更新敏捷,可解释且不影响原有知识。 3. 数据库内容明确、结构化,结合模型理解能力可降低大模型输出出错可能。 4. 知识库存储用户数据便于管控隐私,且可控、稳定、准确。 5. 数据库维护可降低大模型训练成本。 在商业化问答场景中,优化 AI 更准确回答问题的过程称为 RAG。RAG 由检索器和生成器组成,检索器从外部知识中找到相关信息,生成器利用这些信息生成精确连贯的答案,适合处理需要广泛知识的任务。 目前,业界针对 RAG 的优化主要围绕“问题输入”“检索相关信息”“生成回复”这三个环节开展,如通过 COT 等方式提升 LLM 对问题的理解程度,使用特定方式提升语义搜索准确率,选择和优化 embedding 算法保留原始数据信息。但即便每个环节优化到 90%,最终准确率也只有 72%。有一种不用向量也可以 RAG 的方法,基于结构化数据和 LLM 的交互,具有准确、高效、灵活、易扩展等优势。
2025-01-02
rag教程有吗
以下为您提供关于 RAG 的教程: 首先,有一篇题为“胎教级教程:万字长文带你理解 RAG 全流程”的文章。作者大圣指出这是面向普通人的 RAG 科普,而非技术向文章。文章强调 RAG 技术在当前 AI 发展中的重要性,其衍生产品能为企业和个人带来效率提升,但也存在局限性。作者希望通过阐述 RAG 完整流程,让读者全面认知该技术,管理好预期,在使用相关产品时能充分发挥其潜力。适合包括 AI 爱好者、企业老板、AI 产品经理等人群。 其次,“【AI+知识库】商业化问答场景,让 AI 回复更准确,一篇专为所有‘小白’讲透 RAG 的实例教程(上篇)”中提到,通过一个简单的问答示例展示了有时回答不准确的情况,从而引出 RAG 这一优化回答的专业术语。接着介绍了基础概念,RAG 即检索增强生成,由检索器和生成器组成,适合处理需要广泛知识的任务。 最后,在“胎教级教程:万字长文带你理解 RAG 全流程”中还提到了 RAG 全貌概览。RAG 流程分为离线数据处理和在线检索两个过程,离线数据处理构建知识库,在线检索则是利用知识库和大模型进行查询。以构建智能问答客服为例来了解 RAG 流程中的 What 与 Why 。
2024-12-30
RAG搜索
RAG(Retrieval Augmented Generation,检索增强生成)是一种利用大模型能力搭建知识库的技术。以下是关于 RAG 的详细介绍: 背景:大模型训练数据有截止日期,当需要依靠不在训练集中的数据时,RAG 应运而生。 过程: 文档加载:从多种来源加载文档,如 PDF 等非结构化数据、SQL 等结构化数据、Python 等代码。 文本分割:把文档切分为指定大小的块。 存储:包括将切分好的文档块嵌入转换成向量形式,并将向量数据存储到向量数据库。 检索:通过检索算法找到与输入问题相似的嵌入片。 输出:把问题及检索出来的嵌入片提交给 LLM,生成更合理的答案。 核心组件:分为检索、增强、生成三部分。其中检索是核心组件之一,负责从外部数据源或知识库中获取与用户查询相关的信息,其质量和效率对 RAG 系统性能至关重要。涉及检索策略、检索粒度、检索方法、检索效率、外部数据源等关键概念和技术。 引入方式:可以从 AI 搜索切入来理解 RAG。AI 大模型擅长语义理解和文本总结,但不擅长获取实时信息;搜索引擎擅长获取实时信息但信息分散。AI 与搜索引擎结合,给 AI 配备知识库,类似于 RAG 原理。
2024-12-27
dify 实现rag
Dify 是一个开源的大规模语言模型(LLM)应用开发平台,具有以下特点和优势: 1. 配备 RAG 引擎,允许用户编排从代理到复杂 AI 工作流的 LLM 应用。 2. 关键特性: 快速部署,5 分钟内可部署定制化的聊天机器人或 AI 助手。 创意文档生成,能从知识库生成清晰、逻辑性强且无长度限制的文档。 长文档摘要,可轻松对长文档进行摘要。 自定义 API,能安全连接业务知识,解锁更深层次的 LLM 洞察。 连接全球 LLM。 生产就绪,比 LangChain 更接近生产环境。 开源,可被社区广泛使用和改进。 3. 资源获取:可从 Dify 的 GitHub 仓库(https://github.com/langgenius/dify.git 和 https://docs.dify.ai/)获取源代码、文档、安装指南、使用说明和贡献指南等资源。 4. 是一个结合后端即服务和 LLMOps 理念的平台,为用户提供直观界面快速构建和部署生产级别的生成式 AI 应用,具备强大工作流构建工具、广泛模型集成、功能丰富的提示词 IDE 及全面的 RAG Pipeline 用于文档处理和检索,允许定义 Agent 智能体,并通过 LLMOps 功能对应用程序性能持续监控和优化。提供云服务和本地部署选项,满足不同用户需求。其设计理念注重简单性、克制和快速迭代,个人研究可单独使用,企业级落地项目推荐多种框架结合。 5. 官方手册:https://docs.dify.ai/v/zhhans
2024-12-25
什么是ai智能体
AI 智能体是指类似于 AI 机器人小助手,参照移动互联网,类似 APP 应用的概念。简单来说,就是拥有各项能力的“打工人”来帮我们做特定的事情。目前有不少大厂推出自己的 AI 智能体平台,如字节的扣子、阿里的魔搭社区等。体验过 GPT 或者文心一言大模型的小伙伴应该都知道,现在基本可以用自然语言来编程,相当于降低了编程的门槛。但之前使用 GPT 或者文心一言大模型时会出现胡编乱造、时效性、无法满足个性化需求等问题,而 AI 智能体的出现正是解决这些问题的绝佳方式。AI 智能体包含了自己的知识库、工作流,还可以调用外部工具,再结合大模型的自然语言理解能力,就可以完成比较复杂的工作。所以 AI 智能体的出现就是结合自己的业务场景,针对自己的需求,捏出自己的 AI 智能体来解决自己的事情。 例如在社交方向,用户注册之后先捏一个自己的 Agent,然后让自己的 Agent 和其他人的 Agent 聊天,两个 Agent 聊到一起后再真人介入,这是一个有趣的场景。在 B 端,如果字节扣子和腾讯元器是面向普通人的低代码平台,类似 APP 时代的个人开发者,那还有一个机会就是帮助 B 端商家搭建 Agent,类似 APP 时代专业做 APP 的。
2025-01-02
人工智能的定义
人工智能是一门研究如何使计算机表现出智能行为的科学。目前对其定义并不统一,以下是一些常见的定义: 从一般角度来看,人工智能是指通过分析环境并采取行动(具有一定程度的自主性)以实现特定目标来展示其智能行为的系统。基于人工智能的系统可以完全依赖于软件,在虚拟世界中运行(例如语音助手、图像分析软件、搜索引擎、语音和人脸识别系统)或者也可以嵌入硬件设备中(例如高级机器人、自动驾驶汽车、无人机或物联网应用程序)。 2021 年《AI 法案》提案第 3 条对人工智能的定义为:“AI 系统指采用附录 1 中所列的一种或多种技术和方法开发的软件,该软件能生成影响交互环境的输出(如内容、预测、建议或决策),以实现人为指定的特定目标。”其中,附录 1 列举的技术方法主要包括:机器学习方法(包括监督、无监督、强化和深度学习);基于逻辑和知识的方法(包括知识表示、归纳编程、知识库、影响和演绎引擎、符号推理和专家系统);统计方法,贝叶斯估计,以及搜索和优化方法。 最初,查尔斯·巴贝奇发明了计算机,用于按照一套明确定义的程序(即算法)来对数字进行运算。现代计算机虽更先进,但仍遵循受控计算理念。然而,对于像从照片判断人的年龄这类任务,我们无法明确解法,无法编写明确程序让计算机完成,这类任务正是人工智能感兴趣的。 需要注意的是,“人工智能”的概念自 1956 年于美国的达特茅斯学会上被提出后,其所涵盖的理论范围及技术方法随着时代的发展在不断扩展。相比于《2018 年人工智能战略》,2021 年《AI 法案》提案对于人工智能的定义采取更加宽泛的界定标准。在 2022 年《AI 法案》妥协版本中,欧盟理事会及欧洲议会认为“AI 系统”的定义范围应适当缩窄,并侧重强调机器学习的方法。
2025-01-02
人工智能的历史
人工智能作为一个领域始于二十世纪中叶。最初,符号推理流行,带来了如专家系统等重要进展,但这种方法因无法大规模拓展应用场景,且从专家提取知识、表现及保持知识库准确性复杂且成本高,导致 20 世纪 70 年代出现“人工智能寒冬”。 随着时间推移,计算资源更便宜,数据更多,神经网络方法在计算机视觉、语音理解等领域展现出卓越性能,过去十年中“人工智能”常被视为“神经网络”的同义词。 例如在创建国际象棋计算机对弈程序时,方法不断变化。 此外,人工智能和机器学习在金融服务行业应用已超十年,促成了诸多改进。大型语言模型通过生成式人工智能代表重大飞跃,正改变多个领域。 最初查尔斯·巴贝奇发明计算机,遵循受控计算理念。但有些任务如根据照片判断人的年龄无法明确编程,这类任务正是人工智能感兴趣的。如今金融、医学和艺术等领域正从人工智能中受益。
2025-01-02
什么是人工智能
人工智能(Artificial Intelligence)是一门研究如何使计算机表现出智能行为的科学,例如做一些人类所擅长的事情。 最初,查尔斯·巴贝奇发明了计算机,用于按照明确的程序进行数字运算。现代计算机虽更先进,但仍遵循相同的受控计算理念。若知道实现目标的每一步骤及顺序,就能编写程序让计算机执行。 然而,像“根据照片判断一个人的年龄”这类任务,我们不清楚大脑完成此任务的具体步骤,无法明确编程,这类任务正是人工智能感兴趣的。 AI 分为 ANI(artificial narrow intelligence 弱人工智能)和 AGI(artificial general intelligence)。ANI 只可做一件事,如智能音箱、网站搜索、自动驾驶、工厂与农场的应用等;AGI 能做任何人类可以做的事。 人工智能术语包括: 机械学习:学习输入输出,从 A 到 B 的映射。是让电脑在不被编程的情况下自己学习的研究领域。 数据科学:分析数据集,从数据中获取结论与提示,输出结果往往是幻灯片、结论、PPT 等。 神经网络/深度学习:有输入层、输出层、中间层(隐藏层)。
2025-01-02
人工智能伦理建设的基本内容
人工智能伦理建设的基本内容包括以下方面: 欧洲议会和欧盟理事会规定了人工智能的统一规则,并修正了一系列相关条例。回顾委员会任命的独立人工智能高级别专家组 2019 年制定的《值得信赖的人工智能的伦理准则》,其中包含七项不具约束力的人工智能伦理原则: 人类主体和监督:人工智能系统的开发和使用应为人服务,尊重人的尊严和个人自主权,其运行可由人类适当控制和监督。 技术稳健性和安全性:开发和使用方式应在出现问题时保持稳健,抵御试图改变其使用或性能的行为,减少意外伤害。 隐私和数据治理:符合现有隐私和数据保护规则,处理的数据应具备高质量和完整性。 透明度:开发和使用方式应允许适当的可追溯性和可解释性,让人类知晓交流或互动情况,并告知部署者系统的能力和局限性以及受影响者的权利。 多样性、非歧视和公平:开发和使用方式应包括不同参与者,促进平等获取、性别平等和文化多样性,避免歧视性影响和不公平偏见。 社会和环境福祉:有助于设计符合《宪章》和欧盟基础价值观的连贯、可信和以人为本的人工智能。 问责制。 人工智能能带来广泛的经济、环境和社会效益,如改进预测、优化运营等,但也可能根据应用、使用情况和技术发展水平产生风险,对受欧盟法律保护的公共利益和基本权利造成损害。 鉴于人工智能的重大影响和建立信任的必要性,其发展必须符合欧盟价值观、基本权利和自由,应以人为本,最终提高人类福祉。 为确保公众利益的高水平保护,应为所有高风险人工智能系统制定统一规则,这些规则应与《宪章》一致,非歧视,符合国际贸易承诺,并考虑相关准则。
2025-01-02
你好,请问,哪家的智能体最适合处理excel表格
目前有以下几种智能体适合处理 Excel 表格: 1. Excel Labs:这是一个 Excel 插件,新增了基于 OpenAI 技术的生成式 AI 功能,可在 Excel 中直接进行数据分析和决策支持。 2. Microsoft 365 Copilot:微软推出的 AI 工具,整合了多种办公软件,能通过聊天形式让用户告知需求,自动完成如数据分析、格式创建等任务。 3. Formula Bot:提供数据分析聊天机器人和公式生成器两大功能,用户可通过自然语言交互式地进行数据分析和生成 Excel 公式。 4. Numerous AI:支持 Excel 和 Google Sheets 的 AI 插件,除公式生成外,还能根据提示生成相关文本内容、执行情感分析、语言翻译等任务。 随着技术发展,未来可能会有更多 AI 功能集成到 Excel 中,进一步提高工作效率和数据处理的智能化水平。但请注意,以上内容由 AI 大模型生成,请仔细甄别。
2025-01-02