Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

什么是AI agent

Answer

AI Agent 是基于大型语言模型(LLM)和其他技术实现的智能实体,其核心功能在于自主理解、规划决策、执行复杂任务。

AI Agent 包括以下几个概念:

  1. Chain:通常一个 AI Agent 可能由多个 Chain 组成。一个 Chain 视作是一个步骤,可以接受一些输入变量,产生一些输出变量。大部分的 Chain 是大语言模型完成的 LLM Chain。
  2. Router:我们可以使用一些判定(甚至可以用 LLM 来判定),然后让 Agent 走向不同的 Chain。例如:如果这是一个图片,则 a;否则 b。
  3. Tool:Agent 上可以进行的一次工具调用。例如,对互联网的一次搜索,对数据库的一次检索。

总结下来我们需要三个 Agent:

  1. Responser Agent:主 agent,用于回复用户(伪多模态)。
  2. Background Agent:背景 agent,用于推进角色当前状态(例如进入下一个剧本,抽检生成增长的记忆体)。
  3. Daily Agent:每日 agent,用于生成剧本,配套的图片,以及每日朋友圈。

这三个 Agent 每隔一段时间运行一次(默认 3 分钟),会分析期间的历史对话,变更人物关系(亲密度,了解度等),变更反感度,如果超标则拉黑用户,抽简对话内容,提取人物和用户的信息成为“增长的记忆体”,按照时间推进人物剧本,有概率主动聊天(与亲密度正相关,跳过夜间时间)。

此外,心灵社会理论认为,智能是由许多简单的 Agent(分等级、分功能的计算单元)共同工作和相互作用的结果。这些 Agent 在不同层次上执行不同的功能,通过协作实现复杂的智能行为。心灵社会将智能划分为多个层次,从低层次的感知和反应到高层次的规划和决策,每个层次由多个 Agent 负责。每个 Agent 类似于功能模块,专门处理特定类型的信息或执行特定任务,如视觉处理、语言理解、运动控制等。智能不是集中在单一的核心处理单元,而是通过多个相互关联的 Agent 共同实现。这种分布式智能能够提高系统的灵活性和鲁棒性,应对复杂和多变的环境。同时,在《心灵社会》中,还存在专家 Agent(拥有特定领域知识和技能,负责处理复杂的任务和解决特定问题)、管理 Agent(协调和控制其他 Agent 的活动,确保整体系统协调一致地运行)、学习 Agent(通过经验和交互,不断调整和优化自身行为,提高系统在不断变化环境中的适应能力)。

从达特茅斯会议开始讨论人工智能(Artificial Intelligence),到马文·明斯基引入“Agent”概念,往后,我们都将其称之为 AI Agent。

Content generated by AI large model, please carefully verify (powered by aily)

References

皮皮:你的微信虚拟女友 - 李洛云

AI Agent:基于大型语言模型(LLM)和其他技术实现的智能实体,其核心功能在于自主理解、规划决策、执行复杂任务。AI Agent包括下面几个概念:Chain:通常一个AI Agent可能由多个Chain组成。一个Chain视作是一个步骤,可以接受一些输入变量,产生一些输出变量。大部分的Chain是大语言模型完成的LLM Chain。Router:我们可以使用一些判定(甚至可以用LLM来判定),然后让Agent走向不同的Chain。例如:如果这是一个图片,则a;否则b。Tool:Agent上可以进行的一次工具调用。例如,对互联网的一次搜索,对数据库的一次检索。总结下来我们需要三个Agent:Responser Agent:主agent,用于回复用户(伪多模态)Background Agent:背景agent,用于推进角色当前状态(例如进入下一个剧本,抽检生成增长的记忆体)Daily Agent:每日agent,用于生成剧本,配套的图片,以及每日朋友圈Responser AgentDaily AgentBackground Agent每隔一段时间运行一次(默认3分钟)分析期间的历史对话变更人物关系(亲密度,了解度等)变更反感度,如果超标则拉黑用户抽简对话内容,提取人物和用户的信息成为“增长的记忆体”按照时间推进人物剧本有概率主动聊天(与亲密度正相关,跳过夜间时间)[heading1]复杂的东西:中期记忆中的增长记忆体

皮皮:你的微信虚拟女友 - 李洛云

AI Agent:基于大型语言模型(LLM)和其他技术实现的智能实体,其核心功能在于自主理解、规划决策、执行复杂任务。AI Agent包括下面几个概念:Chain:通常一个AI Agent可能由多个Chain组成。一个Chain视作是一个步骤,可以接受一些输入变量,产生一些输出变量。大部分的Chain是大语言模型完成的LLM Chain。Router:我们可以使用一些判定(甚至可以用LLM来判定),然后让Agent走向不同的Chain。例如:如果这是一个图片,则a;否则b。Tool:Agent上可以进行的一次工具调用。例如,对互联网的一次搜索,对数据库的一次检索。总结下来我们需要三个Agent:Responser Agent:主agent,用于回复用户(伪多模态)Background Agent:背景agent,用于推进角色当前状态(例如进入下一个剧本,抽检生成增长的记忆体)Daily Agent:每日agent,用于生成剧本,配套的图片,以及每日朋友圈Responser AgentDaily AgentBackground Agent每隔一段时间运行一次(默认3分钟)分析期间的历史对话变更人物关系(亲密度,了解度等)变更反感度,如果超标则拉黑用户抽简对话内容,提取人物和用户的信息成为“增长的记忆体”按照时间推进人物剧本有概率主动聊天(与亲密度正相关,跳过夜间时间)[heading1]复杂的东西:中期记忆中的增长记忆体

AI-Agent系列(一):智能体起源探究

核心思想:心灵社会理论认为,智能是由许多简单的Agent(分等级、分功能的计算单元)共同工作和相互作用的结果。这些Agent在不同层次上执行不同的功能,通过协作实现复杂的智能行为。多重层次:心灵社会将智能划分为多个层次,从低层次的感知和反应到高层次的规划和决策,每个层次由多个Agent负责。功能模块:每个Agent类似于功能模块,专门处理特定类型的信息或执行特定任务,如视觉处理、语言理解、运动控制等。分布式智能:智能不是集中在单一的核心处理单元,而是通过多个相互关联的Agent共同实现。这种分布式智能能够提高系统的灵活性和鲁棒性,应对复杂和多变的环境。同时,在《心灵社会》中,明斯基还详细描述了不同类型的Agent及其功能:专家Agent:拥有特定领域知识和技能的Agent,负责处理复杂的任务和解决特定问题。管理Agent:协调和控制其他Agent的活动,确保整体系统协调一致地运行。学习Agent:通过经验和交互,不断调整和优化自身行为,提高系统在不断变化环境中的适应能力。从达特茅斯会议开始讨论人工智能(Artificial Intelligence),到马文·明斯基引入“Agent”概念,到这里,“AI”和“Agent”就彻底聚齐了。往后,我们都将其称之为AI Agent。

Others are asking
怎么写好AI绘画提示词
以下是关于写好 AI 绘画提示词的一些要点和方法: 1. 趣味性与美感概念:通过反差、反逻辑、超现实方式带来视觉冲击,在美术基础不出错前提下将形式与内容结合。 2. 纹身图创作要点:强调人机交互,对输出图片根据想象进行二次和多次微调,确定情绪、风格等锚点再发散联想。 3. 魔法少女示例:以魔法少女为例,发散联想其服饰、场景、相关元素等,并可采用反逻辑反差方式。 4. 提示词编写方法:用自然语言详细描述画面内容,避免废话词,Flux 对提示词的理解和可控性强。 5. 实操演示准备:按赛题需求先确定中式或日式怪诞风格的创作引子。 6. 人物创作过程:从汉服女孩入手,逐步联想其颜色、发型、妆容、配饰、表情、背景等元素编写提示词。 7. 输入语言:星流通用大模型与基础模型 F.1、基础模型 XL 使用自然语言(一个长头发的金发女孩),基础模型 1.5 使用单个词组(女孩、金发、长头发),支持中英文输入。 8. 提示词内容准确:包含人物主体、风格、场景特点、环境光照、画面构图、画质,比如:一个女孩抱着小猫,背景是一面红墙,插画风格、孤独感,高质量。 9. 调整负面提示词:点击提示框下方的齿轮按钮,弹出负面提示词框,负面提示词可以帮助 AI 理解我们不想生成的内容,比如:不好的质量、低像素、模糊、水印。 10. 利用“加权重”功能:可在功能框增加提示词,并进行加权重调节,权重数值越大,更优先。对已有的提示词权重进行编辑。 11. 辅助功能:翻译功能可一键将提示词翻译成英文;删除所有提示词可清空提示词框;会员加速可加速图像生图速度,提升效率。 12. 对于 Stable Diffusion:生成方式主要分为文生图和图生图两种。文生图仅通过正反向词汇描述来发送指令。在文本描述上又分为两类:内容型提示词主要用于描述想要的画面,采样迭代步数通常数值控制在 20 40 之间最好,采样方法一般常用的为:Euler a;DPM++2S a Karras;DPM++2M Karras;DPM++SDE Karras;DDIM。将比例设置为 800:400,高宽比尽量在 512x512 数值附近。
2025-03-10
怎么写好AI绘画提示词
以下是写好 AI 绘画提示词的一些要点和方法: 1. 画面描述:用自然语言详细描述画面内容,避免废话词。比如描述人物时,包括发型、妆容、服饰、配饰、表情、背景等元素;描述场景时,涵盖环境光照、画面构图等。 2. 趣味性与美感:趣味性可通过反差、反逻辑、超现实方式带来视觉冲击,美感需在美术基础不出错前提下形式与内容结合。 3. 纹身图创作:强调人机交互,对输出图片根据想象进行二次和多次微调,确定情绪、风格等锚点再发散联想。 4. 特定示例:如以魔法少女为例,发散联想其服饰、场景、相关元素等,并可采用反逻辑反差方式。 5. 输入语言:根据不同模型选择合适的输入方式,有的使用自然语言(一个长头发的金发女孩),有的使用单个词组(女孩、金发、长头发),且支持中英文输入。 6. 提示词内容准确:包含人物主体、风格、场景特点、环境光照、画面构图、画质等,例如:一个女孩抱着小猫,背景是一面红墙,插画风格、孤独感,高质量。 7. 调整负面提示词:点击提示框下方的齿轮按钮,弹出负面提示词框,输入不想生成的内容,如不好的质量、低像素、模糊、水印等。 8. 利用“加权重”功能:在功能框增加提示词,并进行加权重调节,权重数值越大,越优先。 9. 辅助功能:如翻译功能可一键将提示词翻译成英文,还有删除所有提示词、会员加速等功能。 10. 模型选择与参数设置:根据需求选择合适的模型和采样方法,合理设置采样迭代步数和比例等参数。
2025-03-10
如何从零到一成为AI产品经理
要从零到一成为 AI 产品经理,可以参考以下步骤: 1. 入门级: 通过 WaytoAGI 等开源网站或相关课程了解 AI 概念。 使用 AI 产品并尝试动手实践应用搭建。 2. 研究级: 技术研究路径:深入研究某一技术领域。 商业化研究路径:根据需求场景选择解决方案,或利用 Hugging face 等工具手搓出一些 AI 应用来验证想法。 3. 落地应用: 拥有成功落地应用的案例,产生商业化价值。 同时,AI 产品经理需要懂得技术框架,不一定要了解技术细节,但要对技术边界有认知,最好能知道一些优化手段和新技术的发展。产品经理要关注的还是场景、痛点、价值。 此外,还可以参考一些实际案例,比如 Kelton 作为 Owner 从 01 打造过两款 AIGC 产品,也完成过 LLM 评测体系的从零搭建。 在技术方面,对于纯小白,可以从最基础的小任务开始,让 AI 按照 best practice 写一个 say hello 的示例程序,并解释每个文件的作用及程序运行的逻辑,学会必备的调试技能。还可以通过和 AI 的对话,逐步明确项目需求,让 AI 帮助梳理出产品需求文档。
2025-03-10
我想要制作一款小游戏,上架到抖音和微信,请你给我列举出需要用到的ai和软件
以下是制作小游戏并上架到抖音和微信可能需要用到的 AI 和软件: AI 方面:可以利用 AI 描述需求生成游戏代码,例如向云雀 3.5 等模型描述需求来辅助生成代码。还可以让 AI 处理图片、绘制角色形象等。 软件工具: 图像托管网站:用于上传游戏中的图片,选择无需登录、兼容性强的网站。 代码解释网站:有专门解释代码改游戏 bug 的网站,部分有免费额度。 GitHub:用于游戏发布,需要注册账号,设置游戏名,选择公共或锁定,上传文件等。 Zion:支持小程序、Web、AI 行为流全栈搭建,APP 端全栈搭建 2025 上线。 Coze:可作为后端服务。 微信开发者工具:用于微信小程序的开发。
2025-03-10
我想让ai通过文字生成某一类风格的图片,可以给示例
以下是关于让 AI 通过文字生成某一类风格图片的示例和相关信息: 一、关键词相关 在生成图片时,图片内容通常分为二维插画和三维立体两种主要表现形式。为得到想要的图片,以下几个方面很重要: 1. 主题描述 可以描述场景、故事、元素、物体或人物的细节及搭配。 对于场景中的人物,应独立描述,避免用长串文字,以免 AI 识别不到。 大场景中多个角色的细节不太容易通过关键词生成。 2. 设计风格 设计师可能难以直接表达设计风格,可找风格类关键词参考或用垫图/喂图,让 AI 结合主题描述生成相应风格的图片。 某些材质的关键词使用有较多门道,需针对特定风格进行“咒语测试”。 二、工具 Ideogram 2.0 相关 1. 特点 设计能力强,文字生成效果好且准确(仅限英文),图像生成效果优于 Flux&Dalle·3。 具有精准文本生成、多样化风格、创意控制、开发者友好、支持手机端、免费使用额度等特点。 2. 基本操作界面 3. 示例 磨铁文化 Xiron 的字体设计 字体版权:AI 生成文字并非使用真实字体,而是基于学习创造类似风格的文字。 字体生成错误:可通过多次生成提示、使用编辑器修改、更换版本等方式纠正。 3D 风格海报设计、复古海报、网页设计等示例。
2025-03-10
如何做ai视频
将小说制作成 AI 视频通常包括以下步骤和可利用的工具: 工具与网址: 1. Stable Diffusion(SD):一种 AI 图像生成模型,可以基于文本描述生成图像。 网址:https://github.com/StabilityAI 2. Midjourney(MJ):另一个 AI 图像生成工具,适用于创建小说中的场景和角色图像。 网址:https://www.midjourney.com 3. Adobe Firefly:Adobe 的 AI 创意工具,可以生成图像和设计模板。 网址:https://www.adobe.com/products/firefly.html 4. Pika AI:文本生成视频的 AI 工具,适合动画制作。 网址:https://pika.art/waitlist 5. Clipfly:一站式 AI 视频生成和剪辑平台。 网址:https://www.aihub.cn/tools/video/clipfly/ 6. VEED.IO:在线视频编辑工具,具有 AI 视频生成器功能。 网址:https://www.veed.io/zhCN/tools/aivideo 7. 极虎漫剪:结合 Stable Diffusion 技术的小说推文视频创作提效工具。 网址:https://tiger.easyartx.com/landing 8. 故事 AI 绘图:小说转视频的 AI 工具。 网址:https://www.aihub.cn/tools/video/gushiai/ 制作流程: 1. 小说内容分析:使用 AI 工具(如 ChatGPT)分析小说内容,提取关键场景、角色和情节。 2. 生成角色与场景描述:根据小说内容,使用工具(如 Stable Diffusion 或 Midjourney)生成角色和场景的视觉描述。 3. 图像生成:使用 AI 图像生成工具根据描述创建角色和场景的图像。 4. 视频脚本制作:将提取的关键点和生成的图像组合成视频脚本。 5. 音频制作:利用 AI 配音工具(如 Adobe Firefly)将小说文本转换为语音,添加背景音乐和音效。 6. 视频编辑与合成:使用视频编辑软件(如 Clipfly 或 VEED.IO)将图像、音频和文字合成为视频。 7. 后期处理:对生成的视频进行剪辑、添加特效和转场,以提高视频质量。 8. 审阅与调整:观看生成的视频,根据需要进行调整,比如重新编辑某些场景或调整音频。 9. 输出与分享:完成所有编辑后,输出最终视频,并在所需平台上分享。 请注意,具体的操作步骤和所需工具可能会根据项目的具体需求和个人偏好有所不同。此外,AI 工具的可用性和功能也可能会随时间而变化,建议直接访问上述提供的工具网址获取最新信息和使用指南。内容由 AI 大模型生成,请仔细甄别。
2025-03-10
agent
智能体(Agent)在人工智能和计算机科学领域是一个重要概念,指能够感知环境并采取行动以实现特定目标的实体,既可以是软件程序,也可以是硬件设备。 在 LLM 支持的自主 Agent 系统中,LLM 充当 Agents 的大脑,并具有以下关键组成部分: 1. 规划:包括子目标和分解,将大型任务分解为更小、可管理的子目标,以有效处理复杂任务。 2. 反思和完善:能够对过去的行为进行自我批评和反思,从错误中吸取教训,完善未来步骤,提高最终结果质量。 3. 记忆:包含短期记忆,用于所有的上下文学习;长期记忆,通过利用外部向量存储和快速检索,为 Agents 提供长时间保留和回忆(无限)信息的能力。 4. 工具使用:Agents 学习调用外部 API 来获取模型权重中缺失的额外信息,包括当前信息、代码执行能力、对专有信息源的访问等。 以下是一些关于智能体 Agent 的相关目录: 1. 2. 3. 4. 5. 6. 从产品角度思考 Agent 设计: 1. Agent 可以是一个历史新闻探索向导。 身份:历史新闻探索向导 性格:知识渊博、温暖亲切、富有同情心 角色:主导新闻解析和历史背景分析 为使角色更生动,可为其设计简短背景故事,如曾是一位历史学家,对重大历史事件了如指掌,充满热情,愿意分享知识。 2. 写好角色个性的方法: 角色背景和身份:编写背景故事,明确起源、经历和动机。 性格和语气:定义性格特点,如友好、幽默、严肃或神秘;确定说话方式和风格。 角色互动方式:设计对话风格,从基本问答到深入讨论。 角色技能:明确核心功能,如提供新闻解析、历史背景分析或心理分析;增加附加功能以提高吸引力和实用性。 正如《》所写:个性化定制的“虚拟伴侣”能得到用户认可,是因为精准击中许多年轻人无处可藏的孤独和焦虑,背后是年轻人渴望被理解、沟通和交流。美国心理学家 Robert Jeffrey Sternberg 提出了“爱情三角理论”,认为爱情包含“激情”“亲密”“承诺”三个要素。激情是生理上或情绪上的唤醒,例如对某人有强烈的性或浪漫的感觉;亲密是一种相互依恋的感觉,通过相互联结带来的喜爱和相互沟通分享自己的所见所闻、喜怒哀乐来体现;承诺是决定建立长期稳定关系,融入对方生活,形成互助互惠的关系,代表着一种长相厮守的责任。
2025-03-10
agent 打通应用之间的协议?
在 AI 领域中,Agent 是连接模型与应用的关键。端侧 Agents 是在终端设备上自主运行的智能代理程序,具备感知、决策、执行的闭环能力。 Agent 之所以重要,原因包括:端侧资源约束要求最优化使用,任务具有复杂性,生态存在多样性,双系统路线更适合端侧。 Agent 创造价值的方式体现在双重价值实现:一是资源优化,包括任务分解、按需调用;二是生态连接,比如跨应用协作、UI 理解。 其发展趋势包括:技术上从单一模型到多智能体协作;生态上从封闭应用到开放服务;交互上从指令执行到场景理解。 在技术层面,AI Agent 的发展出现了两条技术路线:一是以自主决策为核心的 LLM 控制流,二是以工作流(Workflow)编排为重点的工具集成系统。 特别值得关注的是 Anthropic 提出的 MCP(Model Context Protocol),它的本质是一个通用接口协议,试图解决让 AI 模型能够以标准化、可扩展的方式与外部世界交互的问题。 此外,还有 Agent Protocol 这种用于与 AI 代理进行通信的统一接口,它提供了一种 API 规范,任何代理开发者都可以实现该协议,设计简单且不依赖特定技术栈,有助于生态系统发展和简化集成,并提供了不同语言的 SDK 供开发者使用。
2025-03-09
做一个每日收集兴趣信息的工具,如收集agent,从微信公众号上收集,应该怎么做
以下是一种通过文章链接订阅公众号,定时推送情报消息,并实现情报 CoT 问答的方式来做每日收集兴趣信息的工具: 1. 安装 Docker(假设已经装上) 浏览器打开:http://127.0.0.1:4000 或 http://wewerss 服务的 IP:端口(为上面设置的外部端口) 点开后,输入 Dash 管理页面密码 先点帐号管理,然后点“添加读书帐号”(即使用微信读书来实现公众号订阅),扫码添加帐号 然后在公众号源上,点添加 将您想订阅的公众号的一篇文章链接粘贴并点确定即可订阅公众号文章。但建议不要短时间订阅太多公众号(最好不超 40 个),然后在本地 data/目录会生成一个 SQLite 数据库文件 wewerss.db 2. 关于 Coze 工作流和 Bot 因为前面需要对多维表格操作,所以要先在 http://open.feishu.cn 上建一个飞书机器人,并添加知识库或多维表格编辑权限,具体可参考飞书文档。得到机器人的 app_id 和 app_secret 即可获得租用 token:tenant_access_token 来获取多维表格数据和编辑能力。 工作流一:通过微信文章链接进行文章解读成摘要报告。通过 LLM 能力,开源提示词如下。由于 Coze 使用 LLM 和批量执行任务延时的约束,建议不要同时处理太多文章(如 6 篇左右)。这样执行后,将多维表格的文章状态转换成“已通知”并生成简报。 消息情报官 Bot:最后可以通过 Coze,建定时任务,执行工作流二,并添加其他如分析文章和搜索文章的能力,即可变成一个消息情报官的 Agent,我们即可以获得想要的领域或行业情报,也可以深入挖掘相关情报的信息。然后发布到想要的平台,如:Coze 商店、豆包、飞书、微信、微信公众号、微信小程序等,即可使用。可以构建多个分身,就能收集整理不同领域和行业的情报信息。 如感兴趣欢迎联系交流合作。
2025-03-08
AI Agent MANUS个人助手是否可以本地私有化部署
目前没有明确的信息表明 AI Agent MANUS 个人助手可以本地私有化部署。 Manus 是一款由中国团队研发的全球首款通用型 AI 代理工具,于 2025 年 3 月 5 日正式发布。它区别于传统聊天机器人,具备自主规划、执行复杂任务并直接交付完整成果的能力。其技术架构主要基于多智能体架构,运行在独立的虚拟机中,核心功能由多个独立模型共同完成,包括规划、执行和验证三个子模块,还包括虚拟机、计算资源、生成物、内置多个 agents 等关键组件,并采用了“少结构,多智能体”的设计哲学。 但对于其是否能本地私有化部署,现有资料未给出确切说明。在构建高质量的 AI 数字人方面,由于整个数字人的算法部分组成庞大,几乎不能实现单机部署,特别是大模型部分,算法一般会部署到额外的集群或者调用提供出来的 API。而在本地部署资讯问答机器人方面,有相关案例,但未提及与 AI Agent MANUS 个人助手的直接关联。
2025-03-07
AI Agent MANUS个人助手
AI Agent MANUS 个人助手是一种真正自主的 AI 代理。它区别于传统的 AI 助手,能够自主完成复杂任务,不仅生成想法,还能直接执行并交付结果。其核心亮点包括: 1. 自主执行:可直接执行任务,而非仅提供建议。 2. 类人工作模式:能解压文件、浏览网页、阅读文档、提取关键信息等。 3. 云端异步运行:在后台执行任务,完成后自动通知用户。 4. 持续学习和记忆:从用户反馈中学习,提高未来任务的准确性。 5. “心智与手”理念:象征着实际执行能力。 在构建高质量的 AI 数字人时,涉及到为数字人构建灵魂,使其具备各种智能,充当个人助手等。其中在构建数字人灵魂方面,有以下几个工程关键点: 1. AI Agent:要让数字人像人一样思考,需要编写一个像人一样的 Agent,工程实现所需的记忆模块、工作流模块、各种工具调用模块的构建存在挑战。 2. 驱动躯壳的实现:灵魂部分通过定义接口由躯壳部分通过 API 调用,调用方式视躯壳部分的实现而定。但包含情绪的语音表达以及保证躯壳的口型、表情、动作和语音的同步及匹配存在困难,目前主流方案只能做到预设一些表情动作,再做一些逻辑判断来播放预设,语音驱动口型相对成熟但闭源。 3. 实时性:由于数字人的算法部分组成庞大,几乎不能实现单机部署,特别是大模型部分,算法一般会部署到额外的集群或者调用提供出来的 API,会涉及到网络耗时和模型推理耗时,低延时是亟需解决的问题。 4. 多元跨模态:仅仅语音交互的数字人远远不够,可根据实际需求添加其他感官,如通过添加摄像头数据获取视觉信息,再通过系列 CV 算法做图像解析等。 5. 拟人化场景:正常与人交流时并非线性对话,会有插话、转移话题等情况,这些情景的工程处理需要优化。 在人工智能的发展历程中,Agent(智能代理)一直是令人着迷的概念之一。2024 年,Agent 技术实现了从概念到实践的关键突破。例如,当对手机下达指令“帮我给同事的朋友圈点赞”,AI 就能识别屏幕并完成操作。这种进化展示了 AI 不仅能“听懂”,还能“思考”和“行动”,会分析任务、规划步骤、选择工具,甚至在遇到问题时及时调整策略。2024 年,Anthropic 的 Computer Use、智谱 AI 的 AutoGLM 以及 Google 的 Gemini 2.0 等都展示了 AI Agent 的突破性进展。这种接近成型的工程化的 Agent 核心在于四个关键能力的进展,但在过往,类似的 Agent 能力存在成功率不高、泛化能力不够强等问题,训练模型识别所有 App 的 UI 很难,模型进行自主操作也是难点。
2025-03-07
如何使用AI agent
使用 AI Agent 主要包括以下几个方面: 1. 理解工具:AI Agent 有效使用工具的前提是全面了解其应用场景和调用方法。利用 LLM 的 zeroshot learning 和 fewshot learning 能力,可通过描述工具功能和参数的 zeroshot demonstration 或特定工具使用场景和相应方法演示的少量提示来获取工具知识。面对复杂任务,AI Agent 应先将其分解为子任务,再组织和协调,这依赖于 LLM 的推理和规划能力及对工具的理解。 2. 使用工具:AI Agent 学习使用工具的方法主要包括从 demonstration 中学习和从 reward 中学习(清华有相关从训练数据中学习的文章)。这包括模仿人类专家行为,了解行为后果,并根据环境和人类反馈(包括行动结果反馈、环境状态变化的中间反馈、显性评价和隐性行为如点击链接)做出调整。 3. 具身智能:在追求 AGI 的过程中,具身 Agent 成为核心研究范式,强调智能系统与物理世界紧密结合。与传统深度学习模型不同,LLMbased Agent 能主动感知和理解物理环境并互动,利用内部知识库决策并产生行动改变环境,此系列行为称为“具身行动”。 此外,AI Agent 还包括以下概念: 1. Chain:通常一个 AI Agent 可能由多个 Chain 组成,一个 Chain 视作一个步骤,可接受输入变量并产生输出变量,大部分 Chain 是大语言模型完成的 LLM Chain。 2. Router:可使用判定(甚至用 LLM 判定)让 Agent 走向不同的 Chain,如根据输入是图片还是其他进行不同处理。 3. Tool:Agent 上的一次工具调用,如互联网搜索、数据库检索。 同时,还需要三个 Agent: 1. Responser Agent:主 agent,用于回复用户(伪多模态)。 2. Background Agent:背景 agent,用于推进角色当前状态,如进入下一个剧本,抽检生成增长的记忆体等。 3. Daily Agent:每日 agent,用于生成剧本、配套图片及每日朋友圈。Background Agent 每隔一段时间运行一次(默认 3 分钟),分析期间的历史对话,变更人物关系、反感度,抽简对话内容提取信息成为“增长的记忆体”,按照时间推进人物剧本,有概率主动聊天(与亲密度正相关,跳过夜间时间)。
2025-03-07