Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

AI Agent

Answer

AI Agent 是基于大型语言模型(LLM)和其他技术实现的智能实体,其核心功能在于自主理解、规划决策、执行复杂任务。

AI Agent 包括以下几个概念:

  1. Chain:通常一个 AI Agent 可能由多个 Chain 组成。一个 Chain 视作是一个步骤,可以接受一些输入变量,产生一些输出变量。大部分的 Chain 是大语言模型完成的 LLM Chain。
  2. Router:我们可以使用一些判定(甚至可以用 LLM 来判定),然后让 Agent 走向不同的 Chain。例如:如果这是一个图片,则 a;否则 b。
  3. Tool:Agent 上可以进行的一次工具调用。例如,对互联网的一次搜索,对数据库的一次检索。

总结下来我们需要三个 Agent:

  1. Responser Agent:主 agent,用于回复用户(伪多模态)
  2. Background Agent:背景 agent,用于推进角色当前状态(例如进入下一个剧本,抽检生成增长的记忆体)
  3. Daily Agent:每日 agent,用于生成剧本,配套的图片,以及每日朋友圈

Responser Agent、Daily Agent、Background Agent 每隔一段时间运行一次(默认 3 分钟),运行时会分析期间的历史对话,变更人物关系(亲密度,了解度等),变更反感度,如果超标则拉黑用户,抽简对话内容,提取人物和用户的信息成为“增长的记忆体”,按照时间推进人物剧本,有概率主动聊天(与亲密度正相关,跳过夜间时间)

此外,唐小引等人预测 AI Agent 仍需 5 年以上才能实用,一旦突破,将有极快进化速度。Andrej Karpathy 认为 2025 - 2035 是 Agent 十年,技术与任务领域需突破。Operator 类比“人形机器人”,突破需多模态及长期任务支持。

Content generated by AI large model, please carefully verify (powered by aily)

References

1月25日 社区动态速览

1⃣️👁️AI Agent:2025元年?唐小引等人预测AI Agent仍需5年以上才能实用,一旦突破,将有极快进化速度。Andrej Karpathy认为2025-2035是Agent十年,技术与任务领域需突破。Operator类比“人形机器人”,突破需多模态及长期任务支持。🔗[详情链接](https://x.com/dotey/status/1882715781508563208)2⃣️📜OpenAI Operator系统提示词(中文翻译)可参考的中文翻译链接:🔗[翻译版本](https://baoyu.io/blog/openai-operator-system-prompt)丨🔗[英文原版](https://baoyu.io/blog/openai-operator-system-prompts-cn)3⃣️🧪字节的AI自动化测试框架基于自然语言进行Web UI测试,示例代码:await ai('在搜索框中输入"Headphones",然后回车')支持的模型包括gpt-4o、claude-3-opus、gemini-1.5-pro等。项目链接:🔗[midscenejs官网](https://midscenejs.com)丨🔗[GitHub](https://github.com/web-infra-dev/midscene)丨🔗[详情链接](https://x.com/dotey/status/1882690633535529254)4⃣️🖥️继续测试OpenAI Operator操作中多次出现Bug:编造URL、消息未发送、任务卡死,需手动接管。Prompt示例:通过v0.dev创建YouTube缩略图下载页面,但表现不佳。🔗[详情链接](https://x.com/dotey/status/1882664023201640931)

皮皮:你的微信虚拟女友 - 李洛云

AI Agent:基于大型语言模型(LLM)和其他技术实现的智能实体,其核心功能在于自主理解、规划决策、执行复杂任务。AI Agent包括下面几个概念:Chain:通常一个AI Agent可能由多个Chain组成。一个Chain视作是一个步骤,可以接受一些输入变量,产生一些输出变量。大部分的Chain是大语言模型完成的LLM Chain。Router:我们可以使用一些判定(甚至可以用LLM来判定),然后让Agent走向不同的Chain。例如:如果这是一个图片,则a;否则b。Tool:Agent上可以进行的一次工具调用。例如,对互联网的一次搜索,对数据库的一次检索。总结下来我们需要三个Agent:Responser Agent:主agent,用于回复用户(伪多模态)Background Agent:背景agent,用于推进角色当前状态(例如进入下一个剧本,抽检生成增长的记忆体)Daily Agent:每日agent,用于生成剧本,配套的图片,以及每日朋友圈Responser AgentDaily AgentBackground Agent每隔一段时间运行一次(默认3分钟)分析期间的历史对话变更人物关系(亲密度,了解度等)变更反感度,如果超标则拉黑用户抽简对话内容,提取人物和用户的信息成为“增长的记忆体”按照时间推进人物剧本有概率主动聊天(与亲密度正相关,跳过夜间时间)[heading1]复杂的东西:中期记忆中的增长记忆体

宝玉 日报

🫧宝玉日报「10月29日」✨✨✨✨✨✨✨✨1⃣️📚吴恩达新书《How to Build Your Career in AI》目标读者:面向想进入AI领域的学生、希望转行的专业人士和AI领域初学者。书中亮点:提供全方位的AI职业发展建议,包括掌握核心AI技能、求职面试技巧、个人项目作品集的建立、人脉网络的利用以及克服冒充者综合症。作者背景:吴恩达是AI领域的资深专家,创立了Deeplearning.AI和Coursera等平台,并在谷歌和百度领导AI团队。🔗下载链接:[How to Build Your Career in AI](https://info.deeplearning.ai/how-to-build-a-career-in-ai-book)🔗相关讨论:[x.com](https://x.com/dotey/status/1850767521973927966)[链接](https://x.com/dotey/status/1850767521973927966)2⃣️🛠️Claude的Artifacts使用指南功能强大:可以引用外部js库,实现3D可视化功能,例如3D分子结构。示例Prompt:创建咖啡因分子的3D模型可视化,使用3Dmol.js作为CDN。🔗参考链接:[x.com](https://x.com/dotey/status/1850981273776386302)[链接](https://x.com/dotey/status/1850981273776386302)3⃣️🕵️‍♂️有趣的Prompt示例角色扮演:让GPT扮演CIA调查员,根据聊天历史生成一份报告。Prompt内容:模拟CIA评估的风格,评估个体的特质、动机与行为,并从潜在风险的角度进行分析。🔗参考链接:[x.com](https://x.com/dotey/status/1851118517807902924)[链接](https://x.com/dotey/status/1851118517807902924)

Others are asking
有没有简单输入故事,就生成结合图片、剧情解说的动画的AI工具
以下为您介绍一些能够简单输入故事,就生成结合图片、剧情解说的动画的 AI 工具: Anifusion: 网址:https://anifusion.ai/ Twitter 账号:https://x.com/anifusion_ai 主要功能: AI 文本生成漫画:输入描述性提示,AI 会生成相应漫画页面或图像。 直观的布局工具:提供预设模板,也可自定义漫画布局。 强大的画布编辑器:可在浏览器中直接优化和完善生成的艺术作品。 多种 AI 模型支持:高级用户可访问多种 LoRA 模型实现不同艺术风格和效果。 商业使用权:用户对创作作品拥有完整商业使用权。 使用案例: 独立漫画创作:让无绘画技能的漫画艺术家实现故事创作。 快速原型设计:帮助专业艺术家快速可视化故事概念和布局。 教育内容:为教师和教育工作者创建视觉内容。 营销材料:企业可制作促销漫画或分镜脚本。 粉丝艺术和同人志:粉丝可创作衍生作品。 优点:非艺术家也能轻松创作漫画,基于浏览器无需安装额外软件,具备快速迭代和原型设计能力,拥有创作的全部商业权利。 此外,ChatGPT 也能在一定程度上参与生成对话内容和剧情。例如,通过 System Prompt 介绍游戏故事背景和小机器人人设,结合游戏关键事件生成故事情节介绍,并以小机器人自述形式呈现。在实际实现过程中,可选择离线生成一次性剧情文案保存到游戏中,但文案固定略显单调;也可实时生成,但每次生成有延迟,可能导致游戏停顿感。因此,可在每局对局开始前为游戏关键节点一次性生成所有文案,既保证每次游戏文案不同,又避免游戏停顿。剧情故事格式由预定义的 json 表达,ChatGPT 只需替换填充内容。实时对话与剧情类似,但需解决小机器人区分聊天和执行指令的问题,挑战在于 ChatGPT 支持生成“多模态”返回信息。
2025-03-19
快速记录语音并转换文字用哪个AI
以下是一些可用于快速记录语音并转换文字的 AI 工具: 1. 海螺 AI 声音克隆:不仅能进行声音克隆,还能嵌入完整的 AI 录视频工作流。具体步骤包括录制初始视频、音频提取(可用剪映或格式工厂将 mp4 转为 mp3)、语音转文字(可上传至通义听悟或飞书妙记)。但可能会遇到语音识别不准的问题,此时可使用 Gemini 2.0 Pro 等工具进行优化校正,校正时需提供足够上下文,如视频初稿、最终文章、工作流操作文档、转录文本等。 2. GET 笔记:语音转文字功能适合快速构思和记录灵感,能自动润色,去掉口癖和冗余部分。 3. 通义听悟:适合处理较长的会议录音等文字内容。它能通过 TTS 技术将音视频中的语音转换成文字,还能识别不同发言人。使用时可登录官网 https://tingwu.aliyun.com/,根据实际情况选择实时记录或上传音视频,并选择录音背景信息,如单人、双人还是多人,以及语言种类等。完成转录后会显示 AI 总结的关键词和全文摘要。
2025-03-19
我想做一个AI机器人,用于自动回复我的抖音新消息,现在有办法能解决吗
目前可以通过 Coze 平台来实现让 AI 机器人自动回复您的抖音新消息。以下是相关信息: 微信的不同功能与 Coze 平台对接情况: 个人微信/微信群:之前 Coze 平台不支持直接对接,但国内版已正式发布 API 接口功能,直接对接成为可能。 微信公众号:Coze 平台支持对接,AI 机器人可自动回复用户消息。 微信服务号:Coze 平台支持对接,能提升服务效率。 微信客服:Coze 平台支持对接,可自动回答用户咨询,提高客服响应速度。 配置 AI 微信聊天机器人的步骤: 登录成功后,找另一个人私聊或者在群中@您,能看到机器人正常回复。 若想为 AI 赋予提示词,可返回“目录 4 里的第 17 步”进行更改。 此后进行任何更改,都需“返回首页 右上角 点击重启,重启一下服务器”。 然后,在“文件”的【终端】里,输入“nohup python3 app.py&tail f nohup.out 重新扫码登录”。 关于添加插件,可参考。 疑问解答: 放行端口:类似于给房子安装门铃,通过放行特定端口(如 8888 端口)可通过互联网访问宝塔面板,管理和配置服务器上的服务。 Bot ID:是在 Coze 平台上创建的 AI 机器人的唯一标识,用于将微信号与特定机器人关联。 微信账号被封:若因使用机器人被封,可尝试联系客服说明情况。建议使用专门微信号作为机器人账号,并遵守微信使用规范。 服务器:需要一直开着,以保证机器人随时在线响应请求。 不懂编程:完全可以配置,按照教程一步一步操作即可。 配置问题:检查每步是否按教程操作,特别是 API 令牌和 Bot ID 是否正确。无法解决可到 Coze 平台的论坛或微信群求助。
2025-03-19
ai幻觉
AI 幻觉是指 AI 在生成内容时出现的错误或与现实世界不符的情况。以下是关于 AI 幻觉的一些重要方面: 在写东西方面: AI 容易“产生幻觉”并生成看似合理但可能完全错误的内容,需要对其生成的所有内容进行检查。 对于要求提供参考、引用、引文和信息(对于未连接到互联网的模型)的情况尤其危险。 AI 不会真正解释自己,对其思考过程的回答可能是完全编造的。 使用 AI 工具的输出需要承担责任。 在艺术创作方面: 许多 AI 工具会出现幻觉,如照片中突然出现第三只手臂,或者处理请求时间长。 对于试图通过内容实现盈利的用户可能更加令人沮丧。 从技术真相与应对策略角度: 本质:AI 幻觉是模型对训练数据中统计模式的过度依赖,导致无法准确理解和生成新情况的信息,从而输出与现实不符的内容,类似于人类认知偏差中大脑为节省认知资源对信息的扭曲。 表现形式:多种多样且难以察觉,如生成不存在的人物、地点、事件,或对已知事实错误描述;类似于人类的确认偏误、可得性偏差、锚定效应等。 产生原因:都与经验和知识有关,人类受个人成长经历、文化背景、知识结构等影响,而 AI 与训练数据质量、模型结构和训练策略有关,若训练数据有偏差或错误,模型会学习并体现在生成内容中。 影响:可能导致错误决策,如人类在生活中做出错误判断和选择,投资者受可得性偏差影响做出错误投资决策;AI 幻觉可能误导用户、传播虚假信息,甚至在医疗诊断等领域引发安全事故。 目前还没有完全消除 AI 幻觉的方法,但可以通过一些措施来降低其影响。
2025-03-19
ai的幻觉问题
AI 的幻觉问题主要体现在以下几个方面: 1. 可能编造不存在的 API 或错误代码,需要人工严格审查。 2. 在处理复杂项目时,难以设计架构和模块化,难以完全掌握项目需求,也难以独立完成编译、部署、调试等复杂任务。 3. 许多 AI 工具在艺术创作中会出现幻觉,例如照片中突然出现第三只手臂,或者处理请求时间过长。 4. 当用户追问时,AI 可能会钻牛角尖,给出越来越离谱的答复,还可能不懂装懂,提供错误知识。 针对模型幻觉问题,一些解决技巧包括: 1. 新建一个会话窗口重新提问。 2. 告诉 AI 忘掉之前的所有内容,重新交流。 3. 让 AI 退一步,重新审视整个结构,从零开始设计。 4. 当 AI 猜测并修改问题时,可提供日志让其依据判断问题所在。
2025-03-19
Fliki.ai
Fliki 是一款其他视频生成类的 AI 产品。以下是其相关数据: 6 月访问量(万 Visit)为 245,相对 5 月变化为 0.065。 4 月访问量(万 Visit)为 237,相对 3 月变化为 0.165。
2025-03-19
AI Agent和Agentic Workflow的区别
AI Agent 和 Agentic Workflow 存在以下区别: AI Agent: 基本框架:由“LLM + 规划 + 记忆 + 工具使用”构成,大模型 LLM 充当“大脑”。 规划方面:包括子目标分解、反思与改进,将大型任务分解为较小可管理的子目标,能对过去行动进行自我批评和反思,从错误中学习并改进未来步骤。 记忆方面:用于存储和调用相关信息。 Agentic Workflow: 驱动角色工作流变革:使用多智能体协作的方法,让不同角色的 Agent 按照任务要求自主规划选择工具、流程进行协作完成任务。 涉及人机协同关系:生成式 AI 的人机协同分为嵌入式、副驾驶、智能代理 3 种产品设计模式,在不同模式下,人与 AI 的协作流程有所差异。 重塑获取信息的方式:如搜索引擎和基于大模型的聊天机器人在获取信息上目标一致,ChatGPT 的出现被认为将对传统搜索引擎带来颠覆。 包含多种设计模式:如反思、工具使用、规划、多智能体协同等。反思是让 Agent 审视和修正自己生成的输出;工具使用指 LLM 生成代码、调用 API 等工具进行操作;规划是让 Agent 分解复杂任务并按计划执行;多智能体协同是多个 Agent 扮演不同角色合作完成任务。
2025-03-19
吴恩达总结了四种AI Agent的设计模式: 1.反思模式(Reflection): 2.工具使用模式: 3.规划模式: 4.多智能体协作模式:
吴恩达总结了以下四种 AI Agent 的设计模式: 1. 反思模式(Reflection):让 Agent 审视和修正自己生成的输出。例如,在编写代码时,可让大模型检查代码的准确性和结构规范性,并不断优化。 2. 工具使用模式(Tool Use):通过使用外部工具和资源,如 LLM 生成代码、调用 API 等进行实际操作。 3. 规划模式(Planning):让 Agent 分解复杂任务并按计划执行。 4. 多智能体协作模式(Multiagent Collaboration):多个 Agent 扮演不同角色合作完成任务。 如果您想更深入了解这些设计模式,可以参考以下文章:https://waytoagi.feishu.cn/wiki/SPNqwJkmQiyVfGkS8zocMSZcnYd
2025-03-19
ai agent
AI 智能体在多个领域有着广泛的应用和发展: 1. 在品牌卖点提炼中,AI 智能体可以发挥作用。它在逻辑推理、数据分析、内容理解和输出方面有独特优势,但在应用前需明确其能力边界,比如它对公司的主要产品、产品解决的用户需求、产品独特之处、获得的认可、依赖的核心渠道、核心购买人群、曾使用的营销手段、在新渠道的期望结果等了解程度接近于 0。因此,更适合将其作为引导型的灵感提问助手,在寻找卖点时提供更多思考维度。 2. 相关报道如宝玉日报 3 月 13 日提到,DeepResearch 与 Claude Sonnet 3.7 正在用强化学习推动智能体时代,LLM 智能体不再依赖提示词,具备自主规划与行动能力。 3. 在企业自动化方面,生成式 AI 应用有搜索、合成和生成等核心用例。Menlo Ventures 投资的公司在这些类别中有早期突破性代表,借助新型构建块,下一波智能体正在拓展 AI 能力边界,实现端到端流程自动化。在深入探讨中,将概述 Menlo 对新兴市场的论点,包括定义智能体、追溯技术栈的架构演化过程以及探讨范式转变的影响。
2025-03-19
我想用AI agent自動將文字故事生成出影片,需要經由哪些步驟、用哪些工具、達成哪種效果?
将文字故事生成影片通常需要以下步骤、工具和可能达成的效果: 步骤: 1. 小说内容分析:使用 AI 工具(如 ChatGPT)分析文字故事内容,提取关键场景、角色和情节。 2. 生成角色与场景描述:根据故事内容,使用工具(如 Stable Diffusion 或 Midjourney)生成角色和场景的视觉描述。 3. 图像生成:使用 AI 图像生成工具根据描述创建角色和场景的图像。 4. 视频脚本制作:将提取的关键点和生成的图像组合成视频脚本。 5. 音频制作:利用 AI 配音工具(如 Adobe Firefly)将文字故事转换为语音,添加背景音乐和音效。 6. 视频编辑与合成:使用视频编辑软件(如 Clipfly 或 VEED.IO)将图像、音频和文字合成为视频。 7. 后期处理:对生成的视频进行剪辑、添加特效和转场,以提高视频质量。 8. 审阅与调整:观看生成的视频,根据需要进行调整,比如重新编辑某些场景或调整音频。 9. 输出与分享:完成所有编辑后,输出最终视频,并在所需平台上分享。 工具与网址: 1. Stable Diffusion:一种 AI 图像生成模型,可以基于文本描述生成图像。网址:https://github.com/StabilityAI 2. Midjourney:另一个 AI 图像生成工具,适用于创建小说中的场景和角色图像。网址:https://www.midjourney.com 3. Adobe Firefly:Adobe 的 AI 创意工具,可以生成图像和设计模板。网址:https://www.adobe.com/products/firefly.html 4. Pika AI:文本生成视频的 AI 工具,适合动画制作。网址:https://pika.art/waitlist 5. Clipfly:一站式 AI 视频生成和剪辑平台。网址:https://www.aihub.cn/tools/video/clipfly/ 6. VEED.IO:在线视频编辑工具,具有 AI 视频生成器功能。网址:https://www.veed.io/zhCN/tools/aivideo 7. 极虎漫剪:结合 Stable Diffusion 技术的小说推文视频创作提效工具。网址:https://tiger.easyartx.com/landing 8. 故事 AI 绘图:小说转视频的 AI 工具。网址:https://www.aihub.cn/tools/video/gushiai/ 效果:通过合理运用上述步骤和工具,可以生成具有一定创意和质量的影片,但具体效果可能会受到原始文字故事质量、工具使用熟练程度以及个人创意等因素的影响。需要注意的是,具体的操作步骤和所需工具可能会根据项目的具体需求和个人偏好有所不同。此外,AI 工具的可用性和功能也可能会随时间而变化,建议直接访问上述提供的工具网址获取最新信息和使用指南。
2025-03-19
ai agent和workfolw的差异
AI Agent 和 Workflow 的主要差异如下: 任务编排方式:AutoGPT 的任务由大模型自动编排,而 Workflow 中的子任务是人为编排的。 带来的优化: 流程中可加入人类 Knowhow,弥补模型知识的不足。 专家测试试跑,减少生产环境中的无效反思,提升 Agent 的表现。 引入图的概念,灵活组织节点,连接各类工具,包括套工具、套其他 Agent、写代码用硬逻辑处理、接大模型进行判断等,极大地提高了灵活性和可控性,提升了 Agent 能力的上限。 解决的问题:Agentic Workflow 可以从提升效率、提高质量、节省时间的角度思考,通过将复杂任务分解为小步骤,融入更多人类参与的规划与定义,减少对 Prompt Engineering 和模型推理能力的依赖,提高 LLM 应用面向复杂任务的性能。 涉及的概念: 记忆:分为短期记忆和长期记忆,短期记忆将上下文学习视为利用模型的短期记忆学习,长期记忆提供长期存储和召回信息的能力。 工具:学会调用外部不同类型 API 获取模型缺少的额外信息、代码执行能力、访问专有信息源等。 动作:大模型根据问句、上下文规划、各类工具决策出最终执行的动作。 人机协同关系:生成式 AI 的人机协同分为 Embedding(嵌入式)、Copilot(副驾驶)、Agent(智能代理)3 种模式,不同模式下人与 AI 的协作流程有所差异。 Embedding 模式:人类完成大多数工作。 Copilot 模式:人类和 AI 协同工作。 Agents 模式:AI 完成大多数工作。 工作流变革:使用 Multiagent Collaboration 的方法,让不同角色的 Agent 按照任务要求自主规划选择工具、流程进行协作完成任务。 信息处理逻辑:抽象化拆解大模型的底层能力,如翻译、识别、提取、格式化等,围绕“输入”“处理”“输出”“反馈”构建最底层的信息处理逻辑。 对获取信息方式的重塑:搜索引擎和基于大模型的聊天机器人在解决问题方面目标一致,ChatGPT 的发布被认为将对传统搜索引擎带来颠覆。
2025-03-18
一句话阐述ai agent的原理。
AI Agent 的原理主要包括以下几个方面: 1. 其核心通常是大型语言模型(LLM)或大模型。 2. 为 LLM 增加了工具、记忆、行动、规划这四个能力。 工具:如长期记忆,相当于给大模型一个数据库工具来记录重要信息。 记忆:提供长期记忆能力。 行动:将目标进行每一步的拆解,并输出不同的固定格式 action 指令给工具。 规划:在大模型的 prompt 层做逻辑处理,如目标拆解。 3. 目前行业里主要用到的是 langchain 框架,它通过代码或 prompt 的形式将 LLM 与 LLM 之间以及 LLM 与工具之间进行串接。 4. 心灵社会理论认为,智能是由许多简单的 Agent(分等级、分功能的计算单元)共同工作和相互作用的结果。这些 Agent 在不同层次上执行不同的功能,通过协作实现复杂的智能行为。 多重层次:从低层次的感知和反应到高层次的规划和决策,每个层次由多个 Agent 负责。 功能模块:每个 Agent 类似于功能模块,专门处理特定类型的信息或执行特定任务。 分布式智能:智能通过多个相互关联的 Agent 共同实现,提高系统的灵活性和鲁棒性。 5. AI Agent 包括 Chain(步骤,可接受输入变量并产生输出变量)、Router(通过判定让 Agent 走向不同的 Chain)、Tool(工具调用)等概念。同时,还需要 Responser Agent(主 agent,用于回复用户)、Background Agent(背景 agent,用于推进角色当前状态)、Daily Agent(每日 agent,用于生成剧本等)等不同类型的 Agent 协同工作。
2025-03-18