Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

拆解agent

Answer

AI Agent 的拆解是指如果单次请求不能很好地遵循并完成所有事情,就将其拆分为一步一步的子任务。比如用户表达目标后,让大模型根据目标拆分出逐步的子任务,再通过工程方式循环请求子任务(可能会插入新任务),直至所有子任务完成。例如去年的 AutoGPT 就是这种方式(Planning and excute),但它只是学术界的探索,难以落地,除了一些 demo 产品,只在实在智能的 RPA 上见过。难以落地的原因有很多,如计划赶不上变化,提前规划的任务难以保证正确执行;大模型并非全知全能,规划的任务不一定正确;工程化执行时,循环的进入和退出时机也是问题。后来大家都在解决这些问题,思路和解法不同,比如 OpenAI 搞 Tools,FastGPT 搞可视化的 workflow 编排,大家逐渐意识到 workflow 是短期最优解,于是纷纷开始做。

判断自己的任务/Prompt 是否需要拆解为工作流,构建稳定可用的 AI Agent 是不断调试和迭代的过程,通常从性能最强的 LLM 着手,先用单条 Prompt 或 Prompt Chain 测试任务执行质量和稳定性,再根据实际情况和最终使用的 LLM 逐步拆解子任务。一般对于场景多样、结构复杂、输出格式要求严格的内容,基本可预见需要拆解为工作流。此外,鉴于 LLM 只能处理文本输入输出,涉及多媒体内容生成或从网络自主获取额外信息等能力时,必然需要通过工作流调用相应插件。只用一段 Prompt 的 Agent 也算 AI Agent。

Content generated by AI large model, please carefully verify (powered by aily)

References

AI Agent 产品经理血泪史(二)-欲知方圆,则必规矩【Workflow篇】

拆!如果单次请求里面不能很好地遵循且完成所有的事情,那麽拆出来,一步一步去做。比如用户表达了自己想要达成的目标,接着就是让大模型去根据这个目标去拆分出来step by step的子任务,再利用工程的方式循环去请求子任务,(中间可能会插入新的任务),直到所有的子任务都被执行完成。这就是去年轰动一时的AutoGPT(Planning and excute)。但是AutoGPT其实只是学术界的一种探索,这东西很难落地,除了一些demo产品,我只在一个叫实在智能的RPA上见过。原因有非常非常多,之前的文章里我也提了很多次。这里只讲几个最难解的。1.计划赶不上变化,提前规划的任务如何保证都能正确执行?2.大模型也不是全知全能,如何保证规划的任务就是对的?3.既然是工程化执行,那何时进入到循环,何时退出循环又是一个问题。下面是当时在实在智能RPA Agent上的截图。或者有兴趣的也可以自己去搜AgentGPT,自己试着跑几个case就知道了。其实大家后来都有在解这些问题,只是思路、解法都不太一样。比如OpenAI开始搞Tools,FastGPT搞了可视化的workflow编排,后面大家都开始意识到好像workflow是一个短期最优解,于是各家都开始做。

AI Agent 产品经理血泪史(二)-欲知方圆,则必规矩【Workflow篇】

拆!如果单次请求里面不能很好地遵循且完成所有的事情,那麽拆出来,一步一步去做。比如用户表达了自己想要达成的目标,接着就是让大模型去根据这个目标去拆分出来step by step的子任务,再利用工程的方式循环去请求子任务,(中间可能会插入新的任务),直到所有的子任务都被执行完成。这就是去年轰动一时的AutoGPT(Planning and excute)。但是AutoGPT其实只是学术界的一种探索,这东西很难落地,除了一些demo产品,我只在一个叫实在智能的RPA上见过。原因有非常非常多,之前的文章里我也提了很多次。这里只讲几个最难解的。1.计划赶不上变化,提前规划的任务如何保证都能正确执行?2.大模型也不是全知全能,如何保证规划的任务就是对的?3.既然是工程化执行,那何时进入到循环,何时退出循环又是一个问题。下面是当时在实在智能RPA Agent上的截图。或者有兴趣的也可以自己去搜AgentGPT,自己试着跑几个case就知道了。其实大家后来都有在解这些问题,只是思路、解法都不太一样。比如OpenAI开始搞Tools,FastGPT搞了可视化的workflow编排,后面大家都开始意识到好像workflow是一个短期最优解,于是各家都开始做。

一泽Eze:万字实践教程,全面入门 Coze 工作流|用 Coze 打造 AI 精读专家智能体,复刻 10 万粉公众号的创作生产力

1.如何判断自己的任务/Prompt是否需要拆解为工作流?构建稳定可用的AI Agent是一个需要不断调试和迭代的过程。Agent工程的终极目标是打造出流程尽量简洁、Prompt尽量精炼、生成结果最稳定的智能体。我们通常从当前性能最强的LLM(如ChatGPT-4和Claude 3.5 sonnet)着手,先用单条Prompt或Prompt Chain(可以简单理解为与LLM连续对话,引导LLM逐步完成复杂的任务)来测试任务的执行质量和稳定性。然后,根据实际执行情况、最终投产使用的LLM,逐步拆解子任务,降低LLM执行单任务的难度,直到达成工程目标。一般而言,对于类似文中这种场景多样、结构复杂、对输出格式要求严格的内容,我们基本可以预见到需要将其拆解为工作流。此外,鉴于LLM只能处理文本输入输出的特性,如果涉及生成多媒体内容或从网络自主获取额外信息等能力,必然需要通过工作流来调用相应的插件。2.只用了一段Prompt的Agent,还算AI Agent吗?算。详见[关于LLM、Prompt、Agent的概念理解](https://zkv549gmz8.feishu.cn/wiki/KhXkwqngAitUufkHNUUcPP57nDb?from=from_copylink)

Others are asking
AI Agents(智能体)
AI 智能体(Agents)是人工智能领域中一个重要的概念: 1. 从 AGI 的发展等级来看,智能体不仅具备推理能力,还能执行全自动化业务,但目前许多 AI Agent 产品在执行任务后仍需人类参与,尚未达到完全智能体的水平。 2. 作为大模型的主要发展方向之一,智能体中间的“智能体”其实就是大模型(LLM)。通过为 LLM 增加工具、记忆、行动、规划这四个能力来实现。目前行业里主要用到的是 langchain 框架,它把 LLM 与 LLM 之间以及 LLM 与工具之间通过代码或 prompt 的形式进行串接。 3. 从智能体的起源探究来看,心灵社会理论认为智能是由许多简单的 Agent(分等级、分功能的计算单元)共同工作和相互作用的结果。这些 Agent 在不同层次上执行不同的功能,通过协作实现复杂的智能行为。心灵社会将智能划分为多个层次,每个层次由多个 Agent 负责,每个 Agent 类似于功能模块,专门处理特定类型的信息或执行特定任务。同时存在专家 Agent、管理 Agent、学习 Agent 等不同类型的 Agent 及其相应功能。从达特茅斯会议开始讨论人工智能,到马文·明斯基引入“Agent”概念,“AI”和“Agent”就彻底聚齐,往后被称之为 AI Agent。
2025-04-15
B端AI Agent
以下是关于 B 端 AI Agent 的相关知识: 一、概念定义 1. 智能体(Agent)简单理解就是 AI 机器人小助手,参照移动互联网,类似 APP 应用的概念。随着 ChatGPT 与 AI 概念的爆火,出现了很多相关新名词,如 bot 和 GPTs 等。AI 大模型是技术,面向用户提供服务的是产品,因此很多公司关注 AI 应用层的产品机会。 C 端案例:如社交方向,用户注册后先捏一个自己的 Agent,然后让其与他人的 Agent 聊天,两个 Agent 聊到一起后真人再介入;还有借 Onlyfans 入局打造个性化聊天的创业公司。 B 端案例:字节扣子和腾讯元器若为面向普通人的低代码平台,类似 APP 时代的个人开发者,那么帮助 B 端商家搭建 Agent 就类似 APP 时代专业做 APP 的。 2. 智能体开发平台:最早接触到的扣子 Coze 是通过一篇科技报道,如 2 月 1 日,字节正式推出 AI 聊天机器人构建平台 Coze 的国内版“扣子”,主要用于开发下一代 AI 聊天机器人。国内还有很多智能体开发平台,如 Dify.AI,但个人较常用的是扣子,所以常对比字节扣子和腾讯元器。 3. 关注智能体的原因:目前 AI Agent 的概念在市场上未达成共识,存在被滥用现象。AI Agent 指的是一种智能代理系统,接近人类大脑,可形成记忆、达成行动规划、自动交互、主动预测。其应用具有个性化、自主完成任务、多 Agent 协作等特点。目前 AI Agent 应用大多集中在 2B 场景,面向个人消费者的产品少,一方面是高度智能化的 Agent 能力需打磨,概念落地有距离;另一方面是 AI 和娱乐消费诉求结合少,主要带来生产方式和效率变革,个人消费者方向目前只看到“私人助理”场景。
2025-04-15
有关 ai agent 的科普文章
以下是为您提供的关于 AI Agent 的科普内容: AI Agent 是一个融合了多学科精髓的综合实体,包括语言学、心理学、神经学、逻辑学、社会科学和计算机科学等。它不仅有实体形态,还有丰富的概念形态,并具备许多人类特有的属性。 目前,关于 AI Agent 存在一些情况。例如,网络上对其的介绍往往晦涩难懂,让人感觉神秘莫测,其自主性、学习能力、推理能力等核心概念,以及如何规划和执行任务、理解并处理信息等方面,都像是笼罩在一层神秘面纱之下。 另外,以国与国之间的外交为例来解释相关协议。假设每个 AI 智能体(Agent)就是一个小国家,它们各自有自己的语言和规矩。各国大使馆试图互相沟通、做生意、交换情报,但现实中存在诸多问题,如协议各异、要求不同等。 如果您想了解更多关于 AI Agent 的详细内容,可访问: 。
2025-04-15
,AI agent 发展趋势,技术状态,商业模式
以下是关于 AI Agent 的发展趋势、技术状态和商业模式的相关信息: 发展趋势: 2024 年内,办公场景“AI 助手”开始有良好使用体验,实时生成的内容开始在社交媒体内容、广告中出现。 2025 2027 年,接近 AGI 的技术出现,人与 AI 配合的工作方式成为常态,很多日常决策开始由 AI 来执行。 技术状态: 目标实现基于 ReAct、SFT、RAG、强化学习等实现自主规划能力的 AI Agent,构建具备认知、决策智能的 Agent 智能体框架。 专注文本/多模态大模型、AI Agent 技术创新与应用。 商业模式: 依据不同类型销售市场的特点,结合一站式 AI 搭建平台将销售部署的产品化和模版化,让企业更容易落地和应用 AI 能力。 销售智能体 Blurr.AI 占位交易环节,解决 2B 销售获客的痛点,且具有向前后端环节延展的势能。
2025-04-13
AGENT
智能体(Agent)在人工智能和计算机科学领域是一个重要概念,指能够感知环境并采取行动以实现特定目标的实体,既可以是软件程序,也可以是硬件设备。 智能体具有以下特点: 1. 自主系统:通过感知环境(通常通过传感器)并采取行动(通常通过执行器)来达到某种目标。 2. 关键组成部分: 规划:将大型任务分解为更小、可管理的子目标,有效处理复杂任务。 反思和完善:对过去的行为进行自我批评和反思,从错误中吸取教训,完善未来步骤,提高最终结果质量。 记忆:包括短期记忆,用于所有的上下文学习;长期记忆,通过利用外部向量存储和快速检索实现长时间保留和回忆信息。 工具使用:学习调用外部 API 来获取模型权重中缺失的额外信息。 以下是一些与智能体相关的资源目录: 关于 2025AGENT 智能体全球创作大赛: 1. 报名:通过→首页的“立即参赛”按钮进入报名页面,填写相关信息并提交即可,且参赛完全免费。 2. 提交作品:在本网站直接提交,若采用 flowith 搭建了 Agent 可以在微博、小红书、即刻平台发布,并@Flowith 官方,可获得额外会员奖励。 3. 奖项设置:设有金、银、铜奖和多个单项奖,获奖后将获得组委会颁发的奖金和证书,需保证联系方式准确以便联系。 4. 知识产权归属:参赛作品的知识产权归参赛者所有,但组委会有权在宣传和展示中使用参赛作品。
2025-04-12
AI workflow在企业中是否比Agent应用价值和场景更多
AI workflow 和 Agent 在企业中的应用价值和场景各有特点。 Agentic Workflows 具有以下优势: 1. 灵活性、适应性和可定制性:能够根据任务难度进行调整和演变,通过组合不同模式实现定制,在需求和复杂性增长时进行迭代升级。 2. 在复杂任务上的性能提升:将复杂任务分解为更小、可管理的步骤,显著优于确定性的零样本方法。 3. 自我纠正和持续学习:能够评估自身行为,完善策略,从过去经验中学习,在每次迭代中变得更有效和个性化。 4. 操作效率和可扩展性:可以高精度自动化重复任务,减少人工操作和运营成本,还能轻松扩展。 Agentic Workflow 的应用场景包括原子设计模式的组合、与人类反馈循环集成等。例如,Agentic RAG 在检索增强生成流程中引入了一个或多个 AI Agents,在规划阶段可进行查询分解等操作,还能评估数据和响应的相关性和准确性。 一般来说,Workflow 是一系列旨在完成特定任务或目标的相互连接的步骤。最简单的工作流是确定性的,遵循预定义步骤序列。有些工作流利用大模型或其他 AI 技术,分为 Agentic 和非 Agentic 两类。非 Agentic 工作流中,大模型根据指令生成输出。Agentic Workflow 是由单个或几个 AI Agents 动态执行的一系列连接步骤,被授予权限收集数据、执行任务并做出决策,利用 Agents 的核心组件将传统工作流转变为响应式、自适应和自我进化的过程。 综上所述,不能简单地说 AI workflow 在企业中比 Agent 应用价值和场景更多,这取决于企业的具体需求和任务特点。
2025-04-09
core案例拆解教程
以下为为您提供的几个案例拆解教程: Coze 应用实战指南 吐槽心灵鸡汤 核心功能说明:一个允许用户输入心灵鸡汤类内容,AI 生成对应的反心灵鸡汤,并展示在前端页面的应用。 核心操作流程拆解: 1. 用户在页面输入指定文本。 2. 用户在页面点击【开喝】按钮。 3. Coze 后台调用工作流生成对应内容。 4. 工作流生成的内容展示在前端界面内。 核心前端设计拆解: 1. 用户界面提供一个元素 A(Coze 中称作组件),让用户输入内容。 2. 用户界面提供一个按钮 A,让用户点击后调用工作流。 3. 用户界面提供一个元素 B,向用户展示工作流的结果。 核心业务逻辑拆解: 1. 读取元素 A 的用户输入。 2. 将用户输入传递给 AI 大模型。 3. AI 大模型按照提示词设定生成指定内容。 4. 在元素 B 展示 AI 大模型生成的内容。基于上述业务逻辑,只需要设计一个简单的工作流即可,该工作流由【开始】节点(用户输入)、【大模型】节点(AI 生成内容)、【结束】节点构成(内容输出)。 Pika 新功能“Pikadditions” 厕所开门见猴 原视频:人物推开厕所门→空马桶镜头。 角色图片:一张猴子坐在马桶上的图片。 提示词:“When the door opens in the video,we see a monkey with reading glasses sitting in the toilet reading a book.” 拆解逻辑: 1. 时间触发:When the door opens→绑定视频动态事件(门开合过程)。 2. 空间绑定:sitting in the toilet→将猴子坐标锁定在马桶实体上。 3. 行为设计:reading a book→赋予角色符合场景逻辑的行为(厕所常见活动)。 4. 细节强化:with reading glasses→用视觉符号增强角色合理性(模仿人类行为)。 首尾帧循环视频制作 宇航员案例 1. MJ 生成宇航员近照。 2. 截取头盔中反射的宇航员作为第 3 步垫图和 sref 使用。 3. 生成与头盔中宇航员接近的半身像。 4. 打开即梦,选择使用尾帧。重点:一般情况可以不选择运镜控制,但这张图需要选择变焦推进,控制镜头推进到头盔里,不然 AI 会自己选择更容易实现的后拉运镜。 5. 得到。 6. 同样的做法得到尾帧回到首帧的视频,再用剪映拼接一下两段视频即可得到在他人与自己中无限轮回(有时候起始或结束有停顿,保证整条视频衔接流畅可以掐掉)。
2025-03-12
【深度拆解】ChatGPT-4o背后的技术革新:从语言模型到多模态跨越
ChatGPT4o 背后的技术革新具有重要意义。人类的感知多样,仅靠语言描述世界远远不够,多模态理解非常有用,能更全面学习世界、理解人类需求等。2023 年 9 月 GPT4v 发布,将大语言模型竞赛带入多模态模型时代,如 ChatGPT 能看图说话、画图,Google 的 Gemini 支持多种模态,但 OpenAI 常抢先发布。今年 5 月 OpenAI 发布 GPT4o,向智能体方向迈进,其是之前技术的集大成者,通过端到端神经网络混合训练视觉、语音和文本数据,平均音频输入反应时间为 300 毫秒,能感悟人类表达的情绪等。OpenAI 未公开 GPT4o 技术细节,唯一线索来自内部炼丹师的博客 AudioLM。此外,GPT4 是 OpenAI 的多模态工具,在编程任务中表现出色,ChatGPT 是用户友好界面,可与高级语言模型交互。2024 年 5 月 14 日 OpenAI 发布 GPT4o,效率高、价格降低、延迟缩短。9 月 16 日 OpenAI 推出 o1 系列模型,在复杂任务中表现优异,o1mini 适合编码任务,两个模型已在 ChatGPT 中提供,有免费或收费版本。
2025-03-09
02-21 | 哪吒爆款AI视频制作拆解
以下是对哪吒爆款 AI 视频制作拆解的相关内容: 视频创作流程: 包括脚本制作、图片生成、视频生成和视频剪辑,使用的工具分别为豆包、利不利不、可灵和海螺、剪映。 爆火原因分析: 1. 爆款 IP 带来热度和流量,如哪吒。 2. 反差作用,如神话人物与现代生活的反差,好玩有趣吸引停留。 3. 共鸣作用,如职业选择大众化、接地气且贴合角色形象性格并有槽点,引发讨论和分享。 主要角色职业设定: 根据哪吒、敖丙、敖光、敖润、申公豹、太乙真人、吴亮先尊等角色的性格和形象特点,为其设定了快递小哥、咖啡店员、水产店老板等贴合又有槽点的职业。 视频传播情况: 新华社官媒编辑索要并传播了有趣且火的哪吒相关视频。 相关案例特点: 列举了宠物走秀、打工猫等案例,指出其具有反差、萌系、贴近生活等特点。 短视频创作要点: 形式在短视频中可稍大于内容,如开花、冰冻、毛茸茸等风格,但要成热门爆款需内容大于形式,具备反差、共鸣等,且热门爆款有难度,小爆款也不错。 哪吒主题 VB 先导片制作: 周四定方案,周六、周天制作,周天晚上上线。未看片子不耽误制作,用可灵多图参考生成角色、道具等,用集梦生成场景等,还可用可灵 AI 换装设定角色服装。 利用多图生成 AI 视频的创作实践: 1. 哪吒角色创作:通过提供多张零碎照片,参考牙齿等细节,设定现代版哪吒形象,考虑其走位和行为进行场面调度。 2. 成年哪吒合成:将哪吒的头颅与他人身子结合,先给手部特写再揭示人物,提示词思路技巧需统一。 3. 申公豹角色处理:与哪吒类似的处理方式,先交代环境,再展现人物动作。 4. 其他角色创作:包括敖丙、大厨、美丽姑娘、土拨鼠、石姬娘娘等角色,根据不同需求设定形象和动作。 工具特点对比: 可灵能满足需求但生成时间长,微度 AI 生成速度快但结果有区别。 会议主题:0221|哪吒爆款 AI 视频制作拆解 会议时间:2 月 21 号(周五)19:58 22:21(GMT+08) 主讲老师:@小龙问路、@子豪插画
2025-03-07
有没有能分析拆解腾讯视频的AI工具?
目前有使用 Gemini 1.5 Pro 来分析和拆解腾讯视频的工具。以下是一些相关信息: 大家可以放自己的案例,本文档可编辑。 郑跃葵:拿个库布里克的电影来分析,连大师手法都学会了。 大峰 AI 绘画:太酷啦又多了一个 AI 视频创作助手。 Jones:b 站大学复习有救了。 对!:拉片太方便了。 Shock:而且可以干掉人工标注了,安徽那边数据标注众包要失业了。 清慎:1. 影视二创长剪短,一键生成小帅、小美、大壮、丧彪的故事;2. 警察叔叔查监控,一句话找出监控中的可疑现象;3. 替代 Opus 等长剪短工具。 测试者阿强:好用,准确度很高,把前几天用 AI 做的功夫熊猫之离谱村版丢进去分析,效果很好。拆解作品。 测试者张余和 Ling、洋洋也有拆解结果,Gemini 1.5 Pro 给出了全文。 您可以尝试使用 Gemini 1.5 Pro 来满足您对腾讯视频的分析拆解需求。
2024-12-11
将活动主题拆解为大量结构化提示词,用于文生视频
以下是将活动主题拆解为大量结构化提示词用于文生视频的相关内容: 技巧 1:提示词的结构 当提示词有清晰的结构时,提示效果最有效。可使用简单公式:。 例如:无结构提示词“小男孩喝咖啡”,有结构的提示词“摄影机平移(镜头移动),一个小男孩坐在公园的长椅上(主体描述),手里拿着一杯热气腾腾的咖啡(主体动作)。他穿着一件蓝色的衬衫,看起来很愉快(主体细节描述),背景是绿树成荫的公园,阳光透过树叶洒在男孩身上(所处环境描述)”。 技巧 2:提示词的优化 有三个原则: 1. 强调关键信息:在提示的不同部分重复或强化关键词有助于提高输出的一致性。 2. 聚焦出现内容:尽量让提示集中在场景中应该出现的内容上。 3. 规避负面效果:在提示词中写明不需要的效果。 写提示词时,首先要明确场景中的人物和冲突,其次是对场景进行详细描述,包括地点、人物形象、任务动作等细节,使用生动的动词营造动态和戏剧化氛围,第三要加强镜头语言,如推、拉、摇、移、升、降等,每种镜头运动都有其特定作用和效果。 PixelDance V1.4 提示词指南 图生视频的基础提示词结构为:主体+运动。当主体有突出特征时可加上,需基于输入图片内容写,明确写出主体及想做的动作或运镜,提示词不要与图片内容/基础参数存在事实矛盾。
2024-12-09
拆解 通往AGI之路 知识付费运营体系
通往 AGI 之路的知识付费运营体系可以从以下几个方面来拆解: 1. 课程特点: 【野菩萨的 AIGC 资深课】由工信部下属单位【人民邮电出版社】开设,是全网技术更新最快的课程之一。 课程内容涵盖 AI 绘画、视听语言和 ChatGPT 等多个体系的知识,能满足不同阶段学习者的需求。 2. 付费与开源的比较: 开源社区资源丰富,适合自律的自主学习者。 知识付费课程提供系统结构、专业指导、针对性计划和互动反馈,是高效的学习途径。 3. 社区需求: 新同学加入时,对适合小白新手入门的课程有需求,相比啃知识库的图文,更愿意接受老师手把手的教学。 4. 个人经历:创建者在希望快速入门 AI 绘画时,投入金钱学习了许多付费的 AI 课程,并最终选择了野菩萨的课程。 通往 AGI 之路本身不仅是开源的 AI 知识库,还是连接 AI 学习者、实践者、创新者的社区,具有以下特点: 1. 共同建设:由一群热爱 AI 的专家和爱好者共同贡献并整合各种 AI 资源。 2. 丰富内容:提供一系列开箱即用的工具,文生图、文生视频、文生语音等详尽的教程。 3. 紧跟前沿:追踪 AI 领域最新的进展,时刻更新。 4. 活动多样:包括东京的 confii 生态大会、AI 文旅视频、娃卡奖、李普村共创故事、AI 春晚等社区共创项目,以及 AIPO 活动、共学活动等。 5. 扶持与奖励:在小红书发布活动内容带特定标签有流量扶持,设有最佳创业奖和最佳投资奖等。
2024-11-25