Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

有没有multi agent相关项目可以推荐一下吗

Answer

以下是为您推荐的一些与 multi agent 相关的项目:

  1. 《Multi Agent 策略架构基础(1)》:https://waytoagi.feishu.cn/record/1sfvunQZGoT5vB2r29i9PWi6W ,其中介绍了有代表性的 Multi Agent demo 项目包括 AutoGPT、Smallville 小镇和面壁智能 ChatDev,探讨了 Multi Agent 领域的相关内容以及其面临的挑战和限制。
  2. 吴恩达最新演讲中提到的清华面壁智能的开源项目 ChatDev,展示了多智能体协作的场景,如不同身份的智能体合作开发小游戏。

此外,为您补充一些关于 multi agent 的知识: 多智能体(Multi-Agent)是由多个自主、独立的智能体(Agent)组成的系统。每个智能体都能感知环境、决策并执行任务,且它们之间能信息共享、任务协调与协同行动以实现整体目标。

随着大型语言模型(LLM)的出现,以 LLM 为核心构建的 Agent 系统受广泛关注。目前常见框架集中在单 Agent 场景,其核心是 LLM 与工具协同配合,可能需与用户多轮交互。而多 Agent 场景为不同 Agent 指定角色,通过协作完成复杂任务,与用户交互可能减少。

构建多 Agent 框架主要组成部分包括:

  • 环境(environment):所有 Agent 处于同一环境,环境包含全局状态信息,Agent 与环境有信息交互与更新。
  • 阶段(stage):采用 SOP 思想将复杂任务分解为多个子任务。
  • 控制器(controller):可以是 LLM 或预先定义好的规则,负责环境在不同 Agent 和阶段之间切换。
  • 记忆:在多 Agent 框架中,由于 Agent 数量增多,消息数量及每条消息需记录的字段也相应增加。
Content generated by AI large model, please carefully verify (powered by aily)

References

2023 年历史更新(归档)

《[Multi Agent策略架构基础(1)](https://waytoagi.feishu.cn/record/1sfvunQZGoT5vB2r29i9PWi6W)》是作者对逐渐升温的Multi Agent领域的探索,有代表性的Multi Agent demo项目包括AutoGPT、Smallville小镇和面壁智能ChatDev,Multi Agent有潜力解决复杂问题,但仍需面对挑战和限制;城主发表了一篇《[2023年的大模型:OpenAI科学家最新讲座(完整版)](https://waytoagi.feishu.cn/record/1sfvuPPwj8ZTnMvEQIwaSJRxY)》,Hyung Won Chung从Google跳到OpenAI一年多,他在网络上所做的LLM技术分享中提供了LLM在2023年的最新动向和大量技术细节,颇有价值;《[马丁的](https://waytoagi.feishu.cn/record/1sfvun2KibnFAT2lXmbW1SynB)[Character.AI](https://waytoagi.feishu.cn/record/1sfvun2KibnFAT2lXmbW1SynB)[赛道说明书](https://waytoagi.feishu.cn/record/1sfvun2KibnFAT2lXmbW1SynB)》详细分析了NPC赛道,它通过创造虚拟角色和提供陪伴服务来满足用户的需求,而不是通过认识新的人或建立人际关系。这个赛道的关键在于技术的发展和商业利益的引入,以及创作者生态的建设;

四种 Agent 设计范式(通俗易懂版)-- 吴恩达最新演讲

(这一部分介绍的比较少)现在用的比较多的就是使用Copilot进行联网搜索,以及在解决某数理逻辑问题时,调用代码插件来辅助解决。第三个是Planning(规划),非常惊艳的设计,用户输入任务,AI拆解流程、选择工具、调用、执行并输出结果。我在做一些demo时会遇到一些错误,但Agent绕过了我的错误,自主地完成了任务。我在这里举一个例子,改编自HuggingGPT这个论文,我需要生成一个图片,一个女孩在看书,她的姿势要个我给的这个图片中的男孩一样,然后你再用文字描述这篇文章。Agent的做法是,先提取该图片中男孩的姿态(可能是调用的Huggingface上的模型),然后再找到一个模型生成一张同样姿势的图片,最后再描述好生成的这张图片。Agent的效果不一定保证非常好,但大部分情况比较高效,比如我之前谷歌搜索会花费大量时间,现在我会丢一个问题给Agent,然后过一会来看它给的回复。最后一个是Multi-agent,多智能体协作(吴恩达在这里的举例,来自清华面壁智能的开源项目ChatDev)。每个Agent被赋予了不同的身份,比如有的是CEO,有的是产品经理,有的是程序员,他们互相合作互相对话,比如你让他们开发一个简单的小游戏,他们会花几分钟时间来编写代码并测试。尽管有时候不是很有效,但非常有前景和想象力,它模拟了现实生活中的工作场景,Multi-agent不仅仅只能执行单一任务,而是成为了一个复杂系统。最后是结论,我认为未来,得益于Agentic Worklfow,AI能做出来更多牛逼的应用。但现在我们等待Agent的回复需要比较长的时间,所以更快的token生成速度是很重要的(吴恩达在此又扯了个故事,表达的意思是人性就是希望即时满足)。

问:Multi-Agent是什么

多智能体(Multi-Agent)是由多个自主、独立的智能体(Agent)组成的系统。在这个系统中,每个智能体都能够感知环境、进行决策并执行任务,同时它们之间可以进行信息共享、任务协调以及协同行动,以实现整体的目标。[heading2]关于Multi-Agent[content]随着大型语言模型(LLM)的出现,以LLM为核心构建的Agent系统近期受到了广泛关注。Agent系统旨在利用LLM的归纳推理能力,为不同的Agent分配角色和任务信息,并配备相应的工具插件,以完成复杂的任务。目前,更常见的框架主要集中在单Agent场景下。单Agent的核心在于LLM与工具的协同配合。LLM根据用户任务的理解,推理出需要调用的工具,并根据调用结果向用户提供反馈。在任务完成过程中,Agent可能需要与用户进行多轮交互。与此同时,越来越多的Agent框架开始关注多Agent场景。为了完成任务,多Agent会为不同的Agent指定不同的角色,并通过Agent之间的协作来完成复杂的任务。与单Agent相比,在任务完成过程中,与用户的交互可能会减少一些。[heading2]主要组成部分[content]为构建一个多Agent框架,我们需要思考相对于单Agent,框架中增加了哪些组件。环境(environment):所有Agent应该处于同一个环境中。环境中包含全局状态信息,Agent与环境之间存在信息的交互与更新。阶段(stage):为了完成复杂任务,现有多Agent框架通常采用SOP思想,将复杂任务分解为多个子任务。控制器(controller):控制器可以是LLM,也可以是预先定义好的规则。它主要负责环境在不同Agent和阶段之间的切换。记忆:在单Agent中,记忆只包括用户、LLM回应和工具调用结果等部分。而在多Agent框架中,由于Agent数量增多,导致消息数量增多。同时,每条消息可能需要记录发送方、接收方等字段。

Others are asking
什么是multi agent
多智能体(MultiAgent)是由多个自主、独立的智能体(Agent)组成的系统。在这个系统中,每个智能体都能够感知环境、进行决策并执行任务,同时它们之间可以进行信息共享、任务协调以及协同行动,以实现整体的目标。 随着大型语言模型(LLM)的出现,以 LLM 为核心构建的 Agent 系统近期受到广泛关注。Agent 系统旨在利用 LLM 的归纳推理能力,为不同的 Agent 分配角色和任务信息,并配备相应的工具插件,以完成复杂的任务。 目前,更常见的框架主要集中在单 Agent 场景下。单 Agent 的核心在于 LLM 与工具的协同配合。LLM 根据用户任务的理解,推理出需要调用的工具,并根据调用结果向用户提供反馈。在任务完成过程中,Agent 可能需要与用户进行多轮交互。 与此同时,越来越多的 Agent 框架开始关注多 Agent 场景。为了完成任务,多 Agent 会为不同的 Agent 指定不同的角色,并通过 Agent 之间的协作来完成复杂的任务。与单 Agent 相比,在任务完成过程中,与用户的交互可能会减少一些。 为构建一个多 Agent 框架,主要组成部分包括: 1. 环境(environment):所有 Agent 应处于同一个环境中。环境中包含全局状态信息,Agent 与环境之间存在信息的交互与更新。 2. 阶段(stage):为完成复杂任务,现有多 Agent 框架通常采用 SOP 思想,将复杂任务分解为多个子任务。 3. 控制器(controller):控制器可以是 LLM,也可以是预先定义好的规则。它主要负责环境在不同 Agent 和阶段之间的切换。 4. 记忆:在单 Agent 中,记忆只包括用户、LLM 回应和工具调用结果等部分。而在多 Agent 框架中,由于 Agent 数量增多,导致消息数量增多。同时,每条消息可能需要记录发送方、接收方等字段。 多智能体的核心交互流程包括: 1. 控制器更新当前环境状态,选择下一时刻行动的 Agent。 2. Agent 与环境交互,更新自身的记忆信息。 3. Agent 调用 LLM,执行动作并获取输出消息。 4. 将输出消息更新到公共环境中。 参考资料: 1. 《》 2. 《》
2025-03-03
实用至上:智能体 / Agent 是什么
智能体(Agent)在人工智能和计算机科学领域是一个非常重要的概念,指的是一种能够感知环境并采取行动以实现特定目标的实体,可以是软件程序,也可以是硬件设备。 智能体可以根据其复杂性和功能分为以下几种类型: 1. 简单反应型智能体(Reactive Agents):根据当前的感知输入直接采取行动,不维护内部状态,也不考虑历史信息。例如温控器,它根据温度传感器的输入直接打开或关闭加热器。 2. 基于模型的智能体(Modelbased Agents):维护内部状态,对当前和历史感知输入进行建模,能够推理未来的状态变化,并根据推理结果采取行动。比如自动驾驶汽车,它不仅感知当前环境,还维护和更新周围环境的模型。 3. 目标导向型智能体(Goalbased Agents):除了感知和行动外,还具有明确的目标,能够根据目标评估不同的行动方案,并选择最优的行动。例如机器人导航系统,它有明确的目的地,并计划路线以避免障碍。 4. 效用型智能体(Utilitybased Agents):不仅有目标,还能量化不同状态的效用值,选择效用最大化的行动,评估行动的优劣,权衡利弊。比如金融交易智能体,根据不同市场条件选择最优的交易策略。 5. 学习型智能体(Learning Agents):能够通过与环境的交互不断改进其性能,学习模型、行为策略以及目标函数。例如强化学习智能体,通过与环境互动不断学习最优策略。 在 LLM 支持的自主 Agent 系统中,LLM 充当 Agents 的大脑,并辅以几个关键组成部分: 1. 规划:包括子目标和分解,将大型任务分解为更小的、可管理的子目标,从而能够有效处理复杂的任务;反思和完善,Agents 可以对过去的行为进行自我批评和自我反思,从错误中吸取教训,并针对未来的步骤进行完善,从而提高最终结果的质量。 2. 记忆:短期记忆,所有的上下文学习都是利用模型的短期记忆来学习;长期记忆,这为 Agents 提供了长时间保留和回忆(无限)信息的能力,通常是通过利用外部向量存储和快速检索来实现。 3. 工具使用:Agents 学习调用外部 API 来获取模型权重中缺失的额外信息(通常在预训练后很难更改),包括当前信息、代码执行能力、对专有信息源的访问等。 随着 LLM 在几个关键能力上的成熟——理解复杂输入、进行推理和规划、可靠使用工具以及从错误中恢复,智能体开始在生产环境中涌现。智能体通过与人类用户的命令或交互式对话开始工作。一旦任务明确,智能体就会独立进行规划和操作,必要时会向人类寻求更多信息或判断。在执行过程中,智能体需要在每个步骤从环境中获取“基准事实”(如工具调用结果或代码执行情况)以评估其进展。智能体可以在检查点或遇到障碍时暂停等待人类反馈。任务通常在完成时终止,但也常常包含停止条件(如最大迭代次数)以保持控制。 智能体适用于难以或无法预测所需步骤数量的开放性问题,且无法硬编码固定路径的场景。LLM 可能需要运行多个回合,您必须对其决策能力有一定信任。智能体的自主性使其非常适合在可信环境中扩展任务,但智能体的自主性也意味着更高的成本和潜在的错误累积。我们建议在沙盒环境中进行广泛测试,并设置适当的防护措施。 以下是一些实用案例: 1. 用于解决 SWEbench 任务的编码智能体,根据任务描述对多个文件进行编辑:https://www.anthropic.com/research/swebenchsonnet 2. 我们的“计算机使用”参考实现,让 Claude 使用计算机完成任务:https://github.com/anthropics/anthropicquickstarts/tree/main/computerusedemo
2025-03-02
有ai产品吗? 咨询一下,能进入面试的自建ai agent项目具体要达到一个什么水准啊?
目前有一些 AI 面试官的相关产品,例如: 1. 用友大易 AI 面试产品:具有强大技术底座、高度场景贴合度、招聘全环节集成的解决方案、先进防作弊技术及严密数据安全保障。能完成面试、初筛并自动发送面试邀约。 2. 海纳 AI 面试:通过在线方式、无需人为干预完成自动面试、自动评估,精准度高达 98%,面试效率比人工方式提升 5 倍以上,候选人到面率提升最高达 30%。 3. InterviewAI:在线平台,提供面试职位相关问题及 AI 生成的推荐答案。候选人用设备麦克风回答,每个问题最多回答三次,并收到评估、建议和得分。 此外,Cognition 发布了首位 AI 软件工程师 Devin,它是一个自主 Agents,能通过使用自己的 shell、代码编辑器和网络浏览器解决工程任务,成功通过知名人工智能公司的实际工程面试,还在 Upwork 上完成了实际工作。在无辅助情况下正确解决了 13.86%的问题,远超之前最先进模型。 在其他领域,也有相关的 AI 项目和产品,如: 1. 软件层具有独特多元化行为动作生成及控制 AI Agent 的产品,能实现人类所有基本行为动作的生成及流程过渡,硬件层具有独特并行通信架构,容错率高,力矩密度前沿,深度耦合软件算法,实现 24 小时全天续航无休。 2. 百奥几何的生成式 AI 大模型赋能蛋白质设计,应用在包括生物医药、化工、医美、食品等整个生物制造领域,其生成式 AI 蛋白质大模型 GeoFlow 已达国际领先水平。 3. 行云致力于打造软件亲和、高显存规格的大模型推理芯片,用异构、白盒的硬件形态重塑大模型计算系统,解决大模型产业的算力成本和供应问题。
2025-03-02
如何做自己的agent
要做自己的 Agent,可以按照以下步骤进行: 1. 从基础案例入门 三分钟捏 Bot Step 1:(10 秒)登录控制台 登录扣子控制台(coze.cn)。 使用手机号或抖音注册/登录。 Step 2:(20 秒)在我的空间创建 Agent 在扣子主页左上角点击“创建 Bot”。 选择空间名称为“个人空间”、Bot 名称为“第一个 Bot”,并点击“确认”完成配置。如需使用其他空间,请先创建后再选择;Bot 名称可以自定义。 Step 3:(30 秒)编写 Prompt 填写 Prompt,即自己想要创建的 Bot 功能说明。第一次可以使用一个简短的词语作为 Prompt 提示词。 Step 4:(30 秒)优化 Prompt 点击“优化”,使用来帮忙优化。 Step 5:(30 秒)设置开场白 Step 6:(30 秒)其他环节 Step 7:(30 秒)发布到多平台&使用 2. 进阶之路 15 分钟做什么 查看下其他 Bot,获取灵感 1 小时做什么 找到和自己兴趣、工作方向等可以结合的 Bot,深入沟通 一周做什么 了解基础组件 寻找不错的扣子,借鉴&复制 加入 Agent 共学小组 尝试在群里问第一个问题 一个月做什么 合理安排时间 参与 WaytoAGI Agent 共学计划 自己创建 Agent,并分享自己捏 Bot 的经历和心得 3. 在 WaytoAGI 有哪些支持 文档资源 交流群 活动 此外,还可以借助开源社区的力量构建高质量的 AI 数字人。推荐使用像 dify、fastgpt 等成熟的高质量 AI 编排框架,它们有大量的开源工作者维护,集成各种主流的模型供应商、工具以及算法实现等。可以通过这些框架快速编排出自己的 AI Agent,赋予数字人灵魂。在开源项目中,使用 dify 的框架,利用其编排和可视化交互任意修改流程,构造不同的 AI Agent,并且实现相对复杂的功能,比如知识库的搭建、工具的使用等都无需任何的编码和重新部署工作。同时 Dify 的 API 暴露了 audiototext 和 texttoaudio 两个接口,基于这两个接口就可以将数字人的语音识别和语音生成都交由 Dify 控制,从而低门槛做出自己高度定制化的数字人。如果有更加高度定制的模型,也可以在 Dify 中接入 XInference 等模型管理平台,然后部署自己的模型。此外,数字人 GUI 工程中仍然保留了 LLM、ASR、TTS、Agent 等多个模块,能够保持更好的扩展。 从产品经理角度思考 Agent 时,比如我们的 Agent 可以是一个历史新闻探索向导,其身份是历史新闻探索向导,性格是知识渊博、温暖亲切、富有同情心,角色是主导新闻解析和历史背景分析。为了使角色更加生动,可以为 Agent 设计一个简短的背景故事。写好角色个性需要注意角色背景和身份、性格和语气、角色互动方式、角色技能等方面。正如《》所写,个性化定制的“虚拟伴侣”能得到用户的认可,这是因为精准地击中了许多年轻人无处可藏的孤独和焦虑。美国心理学家 Robert Jeffrey Sternberg 提出了“爱情三角理论”,认为爱情包含“激情”“亲密”和“承诺”三个要素。激情是生理上或情绪上的唤醒,亲密是一种相互依恋的感觉,承诺是决定建立长期稳定关系。
2025-03-01
agent
智能体(Agent)在人工智能和计算机科学领域是一个重要概念,指能够感知环境并采取行动以实现特定目标的实体,既可以是软件程序,也可以是硬件设备。 在 LLM 支持的自主 Agent 系统中,LLM 充当 Agents 的大脑,并包含以下关键组成部分: 1. 规划:包括子目标和分解,将大型任务分解为更小、可管理的子目标,以有效处理复杂任务。 2. 反思和完善:能够对过去的行为进行自我批评和反思,从错误中吸取教训,完善未来步骤,提高最终结果质量。 3. 记忆:分为短期记忆,用于所有的上下文学习;长期记忆,通过利用外部向量存储和快速检索实现长时间保留和回忆无限信息的能力。 4. 工具使用:学习调用外部 API 来获取模型权重中缺失的额外信息,包括当前信息、代码执行能力、对专有信息源的访问等。 以下是一些关于智能体 Agent 的相关目录: 1. 2. 3. 4. 5. 6. 从产品角度思考 Agent 设计: 1. Agent 是谁及性格:比如是一个历史新闻探索向导,身份为历史新闻探索向导,性格知识渊博、温暖亲切、富有同情心,角色主导新闻解析和历史背景分析,为使角色更生动可设计简短背景故事,如曾是一位历史学家,对重大历史事件了如指掌且充满热情、愿意分享知识。 2. 写好角色个性:包括编写背景故事明确起源、经历和动机;定义性格特点和说话方式风格;设计对话风格,从基本问答到深入讨论;明确核心功能,如提供新闻解析、历史背景分析或心理分析,增加附加功能提高吸引力和实用性。 正如《》所写:个性化定制的“虚拟伴侣”能得到用户认可,因精准击中年轻人的孤独和焦虑,背后是年轻人渴望被理解、沟通和交流。美国心理学家 Robert Jeffrey Sternberg 提出“爱情三角理论”,认为爱情包含“激情”“亲密”“承诺”三个要素,激情是生理或情绪上的唤醒,亲密是相互依恋的感觉,通过相互联结分享所见所闻、喜怒哀乐体现,承诺是决定建立长期稳定关系,融入对方生活,形成互助互惠的关系,代表着一种长相厮守的责任。
2025-02-27
如何搭建一个自动把录音文件转文字的agent,然后发布到飞书多维表格字段捷径
搭建一个自动把录音文件转文字的 agent 并发布到飞书多维表格字段捷径的步骤如下: 1. 工作流调试完成后,加入到智能体中。可以选择工作流绑定卡片数据,智能体通过卡片回复。绑定卡片数据可自行研究,如有疑问可留言。 2. 发布:选择需要的发布渠道,重点是飞书多维表格。记得智能体提示词的 4 个变量,填写上架信息(为快速审核,选择仅自己可用),确认发布并等待审核。审核通过后即可在多维表格中使用。 3. 创建飞书多维表格,添加相关字段。配置选择“自动更新”,输入 4 个字段后,“文案视频自动化”字段捷径会自动调用工作流,生成视频。 4. 表单分享,实现“填写表单,自动创建文案短视频”的效果。 5. 点击多维表格右上角的“自动化”,创建想要的自动化流程。 此外,关于 Coze 应用与多维表格的结合还有以下相关内容: 1. Coze 智能体(字段捷径)获取笔记+评论信息:创建智能体,使用单 Agent 对话流模式,编排对话流,配置相关节点和插件,进行数据处理和测试,最后发布。 2. Coze 应用:完成后端准备工作后,创建应用,设计界面和工作流,包括读取博主笔记列表的工作流,进行相关配置和参数设置。
2025-02-27
mat1 and mat2 shapes cannot be multiplied的错误原因与解决方法
很抱歉,目前知识库中没有关于“mat1 and mat2 shapes cannot be multiplied”错误原因与解决方法的相关内容。但通常这种错误可能是由于矩阵的维度不匹配导致的。您可以检查矩阵 mat1 和 mat2 的形状,确保它们满足乘法运算的规则。例如,如果是二维矩阵相乘,第一个矩阵的列数应该等于第二个矩阵的行数。解决方法可能包括重新调整矩阵的形状,或者检查数据处理和运算的逻辑,确保矩阵的维度在进行乘法运算时是正确匹配的。
2024-10-22
Way to AGI multi-language support
以下是关于 AGI 多语言支持的相关信息: OpenVoice V2 版本已推出,支持多语言,包括英语、西班牙语、法语、中文、日语和韩语。音质有所提升,可复制任何声音,并能精细控制情感、口音和语调。相关链接:https://xiaohu.ai/p/6726 、https://x.com/imxiaohu/status/1783312237937005043 在广义语言方面,当前大多数国家之间语言的高质量翻译可以实现,编程语言之间的相互翻译能力也不错,但人的语言与机器语言之间的翻译还需改进,这需要 AI 具备更强的理解、假设和解决问题的能力,这也是 AI Agent 要实现的目标。
2024-08-15
multi agent是什么
多智能体(Multiagent)是指多个相互作用的智能体组成的系统。在人工智能领域,多智能体系统具有广泛的应用。例如,在供应链中,不同经济运营商之间的责任分配存在不确定性。就我国相关规范而言,服务提供者往往是主要责任主体。而在《人工智能法案》中,人工智能系统供应链的参与主体更为细化,包括提供者、部署商、授权代表、进口商和分发商等,它们被统称为“运营者”。2023 年《AI 法案》折衷草案在法律义务分配设计上,特别是对于高风险人工智能系统,提供者和部署商将承担主要义务。其中,提供者承担最广泛的合规义务,包括建立风险管理制度和质量管理制度等,涵盖人工智能系统生命周期的事前和事后环节;部署商的义务则主要集中于确保对高风险人工智能系统的人工监督和日常检测义务,主要覆盖人工智能生命周期的事中环节。
2024-07-07
有哪些常见的multi agent调度模式?
在多智能体(MultiAgent)系统中,常见的调度模式主要有以下几种: 1. 集中式调度(Centralized Scheduling) 在这种模式下,有一个中央控制器负责收集所有智能体的信息,并做出整体最优的决策和资源分配。常见于需要全局协调的场景,如机器人协作、交通管制等。 2. 分布式调度(Distributed Scheduling) 每个智能体根据本地信息和与其他智能体的交互来做出决策,无需中央控制器。常用于大规模、动态、开放的系统,如传感器网络、P2P 网络等。 3. 市场驱动调度(MarketDriven Scheduling) 智能体通过竞价机制获取资源和任务分配。类似于现实市场的供需规律,常用于电力负载调度、计算资源分配等领域。 4. 约束优化调度(Constraint Optimization Scheduling) 将多智能体协作问题建模为分布式约束优化问题,通过启发式或完全算法求解近似最优解。适用于任务分配、资源规划等约束严格的场景。 5. 组织结构调度(Organizational Structuring) 根据特定的组织拓扑结构(层级、同辈、联盟等)对智能体角色和协作模式进行规范,实现有序调度。常见于多机器人协作、组织自动化系统中。 6. 基于规范协议的调度(Normbased Scheduling) 定义一组协议规范来约束智能体的行为,并由规范引擎统一调度和裁决。适用于开放、异构的多智能体系统。 这些调度模式各有利弊,实际应用时需要根据系统的特点、约束和目标进行选择和设计。同时也可以采用混合模式,结合不同模式的优点。调度质量和系统性能是评价标准。
2024-04-19
Multi-Agent是什么
关于多智能体(MultiAgent) 多智能体是由多个自主、独立的智能体组成的系统。在这个系统中,每个智能体都能够感知环境、进行决策并执行任务,同时它们之间可以进行信息共享、任务协调以及协同行动,以实现整体的目标。 随着大型语言模型(LLM)的出现,以LLM为核心构建的Agent系统近期受到了广泛关注。Agent系统旨在利用LLM的归纳推理能力,为不同的Agent分配角色和任务信息,并配备相应的工具插件,以完成复杂的任务。 目前,更常见的框架主要集中在单Agent场景下。单Agent的核心在于LLM与工具的协同配合。LLM根据用户任务的理解,推理出需要调用的工具,并根据调用结果向用户提供反馈。在任务完成过程中,Agent可能需要与用户进行多轮交互。 与此同时,越来越多的Agent框架开始关注多Agent场景。为了完成任务,多Agent会为不同的Agent指定不同的角色,并通过Agent之间的协作来完成复杂的任务。与单Agent相比,在任务完成过程中,与用户的交互可能会减少一些。 主要组成部分 为构建一个多Agent框架,我们需要思考相对于单Agent,框架中增加了哪些组件。 环境(environment):所有Agent应该处于同一个环境中。环境中包含全局状态信息,Agent与环境之间存在信息的交互与更新。 阶段(stage):为了完成复杂任务,现有多Agent框架通常采用SOP思想,将复杂任务分解为多个子任务。 控制器(controller):控制器可以是LLM,也可以是预先定义好的规则。它主要负责环境在不同Agent和阶段之间的切换。 记忆:在单Agent中,记忆只包括用户、LLM回应和工具调用结果等部分。而在多Agent框架中,由于Agent数量增多,导致消息数量增多。同时,每条消息可能需要记录发送方、接收方等字段。 核心交互流程 1. 控制器更新当前环境状态,选择下一时刻行动的Agent。 2. Agent与环境交互,更新自身的记忆信息。 3. Agent调用LLM,执行动作并获取输出消息。 4. 将输出消息更新到公共环境中。
2024-04-15
有没有短视频的脚本prompt
以下是为您提供的一些短视频脚本 prompt 相关内容: 1. 使用 GPT 的视觉功能和 TTS API 处理和讲述视频:可以用大卫·阿滕伯勒的风格为视频制作画外音,使用相同的视频帧提示 GPT 给出简短脚本。 2. 编剧提示词 01——剧本创作:对于短视频,在提交创作偏好时需标注片长,比如明确这是个 3 分钟的短视频。其输出是分阶段的,几个来回就能搞定剧本。 3. 潘峰:Prompt 5 大通用方法中的扩写与改写法:自己要给出开头,让 AI 理解语言逻辑从而撰写下半部并包含必要内容。可以将生成的内容用不同写作技巧转换风格,多滚动几次能写出多样版本与风格,降低初稿修改时间。此外,还有反问法,比如让 AI 问您问题,能发现它思考更仔细,也能了解其逻辑并修正。示例中还包括让 AI 引导您完成能表现个人品牌专业度或创造社群话题的短视频脚本。
2025-03-03
有没有工作流可以将宠物的照片变成手绘的电子画像
以下是一些可以将宠物照片变成手绘电子画像的工作流: 1. SDXL Prompt Styler 工作流:可以把图片转化成近百种风格。例如,将手绘风格的宠物照片转绘成折纸风时,最好不要加入线稿边缘(canny)的 controlnet 控制,或者需把 canny 的控制强度(strength)调到较小。原始图像是手绘风格时,手绘线条和折纸风格本身互斥。若转成漫画风格并想较好保留人物外轮廓,加入 canny 控制能更好还原人物原本造型。有时直接用插件内置预设的提示词组合不一定能达到想要的效果,需在 prompt 中再加一些特定风格的关键词。此外,该工作流结合 Vid2Vid Style Transfer with IPA&Hotshot XL 工作流,可较好实现视频不同风格的稳定转绘。 2. 小王子 Roy 的工作流:用 Coze 搭建神奇宠物诞生器。包括随机生成属性和宠物描述,对于不会写代码的小伙伴,可使用内置的“尝试 AI”功能,但要注意尽量选择 python 代码编写,书写前确定好输出变量等。生成宠物形象使用 coze 自带的文生图工具 text2image 插件,宠物形象描述文字生成使用图片理解插件 imgUnderstand,生成宠物的名字借鉴特定逻辑,生成宠物小传/技能/使命调用前面节点的数据,最后整理输出引用前面节点的多个数据。 3. 《艾小喵绘本》工作流:基于扣子的全自动绘本创作 Agent,源于兴趣和好奇,尝试从半自动实现全自动。
2025-03-03
有没有好用的小红书爆款笔记从选题到爆款笔记生成的ai工具
以下是一些好用的从选题到生成小红书爆款笔记的 AI 工具: DeepSeek:可用于脑爆活动方案、会议纪要总结、分析总结复盘内容、生成专业软件使用过程、写绘画提示词、创作小红书笔记、做私有模型等。 赛博发型师:基于 AI 技术的个性化发型设计服务,能通过分析用户面部特征等生成发型设计方案和效果图,设计报告可存档至飞书文档供专业发型师复核评估。 营销文案创作专家深度版:专为企业营销团队等设计,提供从文案框架创作到生成的一站式服务,还提供营销数据分析服务。 小红书账号文案、表情包、爆款名片生成等个性化小工具:例如小红书爆款文案生成。
2025-03-03
有没有什么AI工具可以把文档性质的内容转化为表格形式
以下是一些可以将文档性质的内容转化为表格形式的 AI 工具和相关方法: 1. GPT4:可以通过指令让其以表格形式输出细节描述,具有打破叙事习惯、便于局部调整和确保内容具体细节等优点。 2. Claude:可用于处理相关内容,但可能存在修改关键情节等问题。 3. Langchain: 对于表格: 方法 1:读入表格 markdown 格式,嵌入 template。 方法 2:直接使用 function call,绕过 langchain 定义数据库读取的方式。 对于文字:包括文字相似度检索过程,如读入文字、进行清洗、句子切分、向量化、计算相似度、取前几的答案等。 此外,还可以参考相关的代码和脚本,如 https://github.com/yuanzhoulvpi2017/DocumentSearch 。同时,https://gitee.com/cyz6668/langchainsimplerag 也对相关内容进行了整理。
2025-03-03
有没有好用的搜索引擎类AI门户
以下是一些好用的搜索引擎类 AI 门户: 1. 秘塔 AI 搜索:由秘塔科技开发,具有多模式搜索、无广告干扰、结构化展示和信息聚合等功能,能提升用户的搜索效率和体验。 2. Perplexity:聊天机器人式的搜索引擎,允许用自然语言提问,通过生成式 AI 技术从各种来源收集信息并给出答案。 3. 360AI 搜索:360 公司推出,通过 AI 分析问题,生成清晰有理的答案,并支持增强模式和智能排序。 4. 天工 AI 搜索:昆仑万维推出,采用生成式搜索技术,支持自然语言交互和深度追问,未来还将支持多模态搜索。 5. Flowith:创新的 AI 交互式搜索和对话工具,基于节点式交互方式,支持多种 AI 模型和图像生成技术,有插件系统和社区功能。 6. Devv:面向程序员的 AI 搜索引擎,专注于提供编程、软件开发和人工智能等领域的专业建议和指导。 7. Phind:专为开发者设计,利用大型语言模型提供相关搜索结果和动态答案,擅长处理编程和技术问题。 此外,存在能联网检索的 AI,例如 ChatGPT Plus 用户可开启 web browsing 功能实现联网,Perplexity 结合了 ChatGPT 式的问答和普通搜索引擎功能,允许用户指定希望聊天机器人在制定响应时搜索的源类型,Bing Copilot 可简化在线查询和浏览活动,还有 You.com 和 Neeva AI 等搜索引擎,提供基于人工智能的定制搜索体验并保持用户数据私密性。 近期出现的各类 AI 搜索引擎不断颠覆传统搜索引擎,如 perplexity.ai、metaso、360 搜索、ThinkAny 等,能辅助高效处理信息,智能摘要功能可快速筛选信息,还能通过自然语言生成美观可用的图片,降低创作门槛和周期。每个人应根据自己的日常工作流找到适合的工具,技术迭代会不断推动 AI Agent 向前发展。
2025-03-02
有没有输入PPT生成指令,帮我生成PPT的
以下是一些关于输入指令生成 PPT 的信息: 增强版 Bot 是基于 AI 驱动的智能创作平台,可实现一站式内容生成,包括图片、PPT、PDF 等。在对话框输入诉求,如“帮我生成一篇包含以上架构风格的完整 PPT”,即可生成幻灯片内容及相关模板选择。 一枚扣子的 COZE 应用中,教案 PPT 内容基于前面生成的教学大纲,可手动进行少许内容修正。若对大纲内容不满意,可重新生成大纲和 PPT。具体操作是复制大纲内容,打开 kimi,选择 PPT,然后复制教案,在对话框粘贴,KIMI 会优化大纲,再选择喜欢的模版生成。但需注意,PPT 预览与下载可能需要充值。 在【workshop】一起写 Prompts 中,小组 1 的夙愿提出的 prompt 主要是输入一个主题帮老师生成一个 PPT(场景不定),使用者为教师(生成)和学生(阅读)。目前较好的解决方案包括提炼教学内容的核心概念确定主题、增加提纲、对提纲进行关键词描述、书写提纲下的摘要,并让用户确认生成的课件提纲和内容是否需要修改。同时,有成熟的案例参考,如 step 1(根据 PPT 大纲助手 GPTs 生成 PPT 大纲):https://chat.openai.com/g/gOKorMBxxUpptdagangzhushou ;step 2(根据输入文本生成 PPT 内容 GPTs 生成 PPT 内容):https://chat.openai.com/g/gYJs9jxVBHshuruwenbenshengchengpptneirong ;step 3(将生成的内容复制到 Marp Web 渲染简洁的 PPT):https://web.marp.app/
2025-03-02
推荐电商做商品图和视频的AI工具
以下为您推荐一些适用于电商做商品图和视频的 AI 工具: 1. Stable Diffusion:如果您要开淘宝网店,可借助它来初步制作商品展示图。比如对于女装商品,先真人穿衣服拍照,选好真人照片风格的底模,如 majicmixRealistic_v7,再根据不同平台需求进行换头,通过图生图下的局部重绘选项卡涂抹替换部分,并设置合适的 prompts 和 parameters。 2. 绘蛙 AI:这是阿里的 AIGC 营销平台,专注于电商营销内容创作,能快速生成吸引人的图文内容,提升商品的市场曝光度和吸引力,操作简单易用。 3. Gatekeep:这是一个提供个性化视频以帮助用户更快学习的平台,利用人工智能生成视频,可用于电商商品的展示和宣传。 此外,使用 AI 来完成阿里巴巴营销技巧和产品页面优化,可以采取以下步骤: 1. 市场分析:利用 AI 分析工具研究市场趋势、消费者行为和竞争对手情况。 2. 关键词优化:AI 分析和推荐高流量、高转化的关键词,优化产品标题和描述。 3. 产品页面设计:AI 设计工具生成吸引人的产品页面布局。 4. 内容生成:AI 文案工具撰写有说服力的产品描述和营销文案。 5. 图像识别和优化:AI 图像识别技术选择或生成高质量的产品图片。 6. 价格策略:AI 分析不同价格点对销量的影响,制定有竞争力的价格策略。 7. 客户反馈分析:AI 分析客户评价和反馈,优化产品和服务。 8. 个性化推荐:AI 根据用户购买历史和偏好提供个性化产品推荐。 9. 聊天机器人:AI 驱动的聊天机器人提供 24/7 客户服务。 10. 营销活动分析:AI 分析不同营销活动效果。 11. 库存管理:AI 预测需求,优化库存管理。 12. 支付和交易优化:AI 分析不同支付方式对交易成功率的影响,优化支付流程。 13. 社交媒体营销:AI 帮助在社交媒体上找到目标客户群体,精准营销提高品牌知名度。 14. 直播和视频营销:AI 分析观众行为,优化直播和视频内容,提高观众参与度和转化率。
2025-03-03
你这个网站是做ai ,app的归纳推荐吗
我们这个网站提供了多种关于 AI 及相关应用的归纳推荐,包括以下方面: 1. 2023 年历史更新(归档):重新整理了网站与 APP 的链接,将功能加入标题以便快速了解用途;推荐了关于视频 AI 工具的亲测排序文章;补充了 Whiteboard 浏览器插件,可将视频转入类似白板的新界面进行操作;添加了关于 GPT4 在地理知识方面能力的论文。 2. 一个希望有点意思的 AI 分享(三):介绍了人和 AI 协同的三种方式,即嵌入式模式、协作模式和智能体模式,目前协作模式最常用。还提到了 ChatGPT 能完成的任务以及个人常用任务对应的国内外 AI 产品,同时指出 AI 不仅是个人的“外挂”,也会给公司带来变革。 3. AIGC Weekly01 产品推荐:包括 Scale AI 发布的视觉 AI 创意套件、生成人类全身照片的工具、绘制头像的工具、将播客变成短视频的工具、Stable Diffusion v 2.0 web UI、创建网站和 app 插画的工具、总结和归纳学习内容的工具,以及 Google 与医疗技术公司合作开发的人工智能乳腺癌筛查工具。 总之,网站涵盖了丰富的 AI 技术、产品、教程和案例等信息,并在不断更新。
2025-03-03
开发转AI产品经理,需要学习哪些东西,请推荐资料库的内容给我让我学习
如果您从开发转型为 AI 产品经理,以下是一些您需要学习的内容和推荐的学习资料: 1. 技术原理方面: 思维链:谷歌在 2022 年的一篇论文提到思维链可以显著提升大语言模型在复杂推理的能力(即有推理步骤),即使不用小样本提示,也可以在问题后面加一句【请你分步骤思考】。 RAG(检索增强生成):外部知识库切分成段落后转成向量,存在向量数据库。用户提问并查找到向量数据库后,段落信息会和原本的问题一块传给 AI;可搭建企业知识库和个人知识库。 PAL(程序辅助语言模型):2022 年一篇论文中提出;比如对于语言模型的计算问题,核心在于不让 AI 直接生成计算结果,而是借助其他工具比如 Python 解释器作为计算工具。 ReAct:2022 年一篇《React:在语言模型中协同推理与行动》的论文提出了 ReAct 框架,即 reason 与 action 结合,核心在于让模型动态推理并采取行动与外界环境互动。比如用搜索引擎对关键字进行搜索,观察行动得到的结果。可借助 LangChain 等框架简化构建流程。 2. 个人总结:很多大佬发言表示要关注或直接阅读技术论文,比如产品经理转型 AI 产品经理,需要懂技术脉络。但小白直接看技术论文有难度,虽然现在可以让 AI 辅助阅读,不过还是要完成一定的知识储备。林粒粒呀的这期视频是一个很好的科普入门。 3. 视频二:技术框架与关于未来的想象。之前对安克创新的印象可能是卖充电宝和安防设备,但看了这期访谈,被 CEO 阳萌的认知震撼,很多观点有启发,强烈建议看原访谈视频。其中提到 Transformer 是仿生算法的阶段性实现,10 年、20 年后大家将不再用 TA 。
2025-03-03
AI编程工具推荐
以下是为您推荐的一些 AI 编程工具: 1. GitHub Copilot:由 GitHub 联合 OpenAI 和微软 Azure 团队推出,支持多种语言和 IDE,能为程序员快速提供代码建议,助其更快、更少地编写代码。 2. 通义灵码:阿里巴巴团队推出,基于通义大模型,提供行级/函数级实时续写、自然语言生成代码等多种能力。 3. CodeWhisperer:亚马逊 AWS 团队推出,由机器学习技术驱动,为开发人员实时提供代码建议。 4. CodeGeeX:智谱 AI 推出的开源免费 AI 编程助手,基于 130 亿参数的预训练大模型,可快速生成代码提升开发效率。 5. Cody:代码搜索平台 Sourcegraph 推出,借助强大的代码语义索引和分析能力,了解开发者的整个代码库。 6. CodeFuse:蚂蚁集团支付宝团队为国内开发者提供的免费 AI 代码助手,基于自研的基础大模型微调的代码大模型。 7. Codeium:一个由 AI 驱动的编程助手工具,通过提供代码建议等帮助软件开发人员提高编程效率和准确性。 更多辅助编程 AI 产品,还可以查看这里:https://www.waytoagi.com/category/65 。每个工具的功能和适用场景可能不同,您可以根据自身需求选择最适合的工具。 此外,使用 AI 编程工具(如 Cursor)的关键技能包括:准确描述需求、具备架构能力、专业编程能力和调试能力。关于不同 AI 编程工具的讨论和使用策略,您可以参考以下内容: 对于 Cursor,不同用户态度不一,有人觉得好用离不开,有人担心依赖心理或认为不好用,还有人对 AI 代码生成存在信任问题。作者建议使用 Git 管理代码版本,对 AI 代码进行 Review,任务分解为单一模块,借助 AI 生成测试代码等。 在 v0 与 Claude 的对比方面,Claude 在纯 UI 场景的生成效果往往更好,而 v0 和 Cursor 会因系统提示词和上下文猜测添加大量无关内容。v0 的优势在于傻瓜式操作。建议结合使用,当 Cursor、v0 效果不佳时,可将问题抽象独立出来,切换到 Claude、ChatGPT 或 Gemini 进行处理。
2025-03-01
AI换衣推荐
以下是为您推荐的与 AI 换衣相关的内容: Comfyui_Object_Migration:这是一种一致性换衣模型,能够高精度地将服装样式迁移到目标人物图像,保持高一致性和细节完整性。它支持从卡通到写实的风格互相转换,甚至可以将平面角色图像转换为可 3D 打印的模型。应用场景包括虚拟角色服装设计迁移到真实照片、为动画角色添加写实服装、微调权重生成独特服装设计等。详细介绍及教程: AI 试衣 Outfit Anyone:这是一款虚拟试衣图片生成模型,基于人像照片及服装图生成穿着后的试衣图片。
2025-02-28
我准备装修,地板是冷灰色,想装修成中古风的风格,需要出设计图,有什么AI工具推荐
以下是一些可以辅助您生成中古风装修设计 CAD 图的 AI 工具: 1. CADtools 12:这是一个 Adobe Illustrator(AI)插件,为 AI 添加了 92 个绘图和编辑工具,涵盖图形绘制、编辑、标注、尺寸标注、转换、创建和实用工具。 2. Autodesk Fusion 360:这是 Autodesk 开发的一款集成了 AI 功能的云端 3D CAD/CAM 软件,有助于创建复杂的几何形状和优化设计。 3. nTopology:一款基于 AI 的设计软件,能够帮助创建复杂的 CAD 模型,包括拓扑优化、几何复杂度和轻量化设计等。 4. ParaMatters CogniCAD:这是一款基于 AI 的 CAD 软件,可根据用户输入的设计目标和约束条件自动生成 3D 模型,适用于拓扑优化、结构设计和材料分布等领域。 5. 生成设计工具:一些主流 CAD 软件,如 Autodesk 系列、SolidWorks 等,提供了基于 AI 的生成设计工具,能根据用户输入的设计目标和约束条件自动产生多种设计方案。 需要注意的是,这些工具通常需要一定的 CAD 知识和技能才能有效使用。对于 CAD 初学者,建议先学习基本的 3D 建模技巧,然后再尝试使用这些 AI 工具来提高设计效率。以上内容由 AI 大模型生成,请仔细甄别。
2025-02-28