Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

如何使用AI agent

Answer

使用 AI Agent 主要包括以下几个方面:

  1. 理解工具:AI Agent 有效使用工具的前提是全面了解其应用场景和调用方法。利用 LLM 的 zero-shot learning 和 few-shot learning 能力,可通过描述工具功能和参数的 zero-shot demonstration 或特定工具使用场景和相应方法演示的少量提示来获取工具知识。面对复杂任务,AI Agent 应先将其分解为子任务,再组织和协调,这依赖于 LLM 的推理和规划能力及对工具的理解。
  2. 使用工具:AI Agent 学习使用工具的方法主要包括从 demonstration 中学习和从 reward 中学习(清华有相关从训练数据中学习的文章)。这包括模仿人类专家行为,了解行为后果,并根据环境和人类反馈(包括行动结果反馈、环境状态变化的中间反馈、显性评价和隐性行为如点击链接)做出调整。
  3. 具身智能:在追求 AGI 的过程中,具身 Agent 成为核心研究范式,强调智能系统与物理世界紧密结合。与传统深度学习模型不同,LLM-based Agent 能主动感知和理解物理环境并互动,利用内部知识库决策并产生行动改变环境,此系列行为称为“具身行动”。

此外,AI Agent 还包括以下概念:

  1. Chain:通常一个 AI Agent 可能由多个 Chain 组成,一个 Chain 视作一个步骤,可接受输入变量并产生输出变量,大部分 Chain 是大语言模型完成的 LLM Chain。
  2. Router:可使用判定(甚至用 LLM 判定)让 Agent 走向不同的 Chain,如根据输入是图片还是其他进行不同处理。
  3. Tool:Agent 上的一次工具调用,如互联网搜索、数据库检索。

同时,还需要三个 Agent:

  1. Responser Agent:主 agent,用于回复用户(伪多模态)。
  2. Background Agent:背景 agent,用于推进角色当前状态,如进入下一个剧本,抽检生成增长的记忆体等。
  3. Daily Agent:每日 agent,用于生成剧本、配套图片及每日朋友圈。Background Agent 每隔一段时间运行一次(默认 3 分钟),分析期间的历史对话,变更人物关系、反感度,抽简对话内容提取信息成为“增长的记忆体”,按照时间推进人物剧本,有概率主动聊天(与亲密度正相关,跳过夜间时间)。
Content generated by AI large model, please carefully verify (powered by aily)

References

AI-Agent系列(一):智能体起源探究

理解工具:AI Agent有效使用工具的前提是全面了解工具的应用场景和调用方法。没有这种理解,Agent使用工具的过程将变得不可信,也无法真正提高AI Agent的能力。利用LLM强大的zero-shot learning和few-shot learning能力,AI Agent可以通过描述工具功能和参数的zero-shot demonstartion或提供特定工具使用场景和相应方法演示的少量提示来获取工具知识。这些学习方法与人类通过查阅工具手册或观察他人使用工具进行学习的方法类似。在面对复杂任务时,单一工具往往是不够的。因此,AI Agent应首先以适当的方式将复杂任务分解为子任务,然后有效地组织和协调这些子任务,这有赖于LLM的推理和规划能力,当然也包括对工具的理解。使用工具:AI Agent学习使用工具的方法主要包括从demonstartion中学习和从reward中学习(清华有一篇从训练数据中学习的文章)。这包括模仿人类专家的行为,以及了解其行为的后果,并根据从环境和人类获得的反馈做出调整。环境反馈包括行动是否成功完成任务的结果反馈和捕捉行动引起的环境状态变化的中间反馈;人类反馈包括显性评价和隐性行为,如点击链接。具身智能在追求人工通用智能(AGI)的征途中,具身Agent(Embodied Agent)正成为核心的研究范式,它强调将智能系统与物理世界的紧密结合。具身Agent的设计灵感源自人类智能的发展,认为智能不仅仅是对预设数据的处理,更多地来自于与周遭环境的持续互动和反馈。与传统的深度学习模型相比,LLM-based Agent不再局限于处理纯文本信息或调用特定工具执行任务,而是能够主动地感知和理解其所在的物理环境,进而与其互动。这些Agent利用其内部丰富的知识库,进行决策并产生具体行动,以此改变环境,这一系列的行为被称为“具身行动”。

AI-Agent系列(一):智能体起源探究

理解工具:AI Agent有效使用工具的前提是全面了解工具的应用场景和调用方法。没有这种理解,Agent使用工具的过程将变得不可信,也无法真正提高AI Agent的能力。利用LLM强大的zero-shot learning和few-shot learning能力,AI Agent可以通过描述工具功能和参数的zero-shot demonstartion或提供特定工具使用场景和相应方法演示的少量提示来获取工具知识。这些学习方法与人类通过查阅工具手册或观察他人使用工具进行学习的方法类似。在面对复杂任务时,单一工具往往是不够的。因此,AI Agent应首先以适当的方式将复杂任务分解为子任务,然后有效地组织和协调这些子任务,这有赖于LLM的推理和规划能力,当然也包括对工具的理解。使用工具:AI Agent学习使用工具的方法主要包括从demonstartion中学习和从reward中学习(清华有一篇从训练数据中学习的文章)。这包括模仿人类专家的行为,以及了解其行为的后果,并根据从环境和人类获得的反馈做出调整。环境反馈包括行动是否成功完成任务的结果反馈和捕捉行动引起的环境状态变化的中间反馈;人类反馈包括显性评价和隐性行为,如点击链接。具身智能在追求人工通用智能(AGI)的征途中,具身Agent(Embodied Agent)正成为核心的研究范式,它强调将智能系统与物理世界的紧密结合。具身Agent的设计灵感源自人类智能的发展,认为智能不仅仅是对预设数据的处理,更多地来自于与周遭环境的持续互动和反馈。与传统的深度学习模型相比,LLM-based Agent不再局限于处理纯文本信息或调用特定工具执行任务,而是能够主动地感知和理解其所在的物理环境,进而与其互动。这些Agent利用其内部丰富的知识库,进行决策并产生具体行动,以此改变环境,这一系列的行为被称为“具身行动”。

皮皮:你的微信虚拟女友 - 李洛云

AI Agent:基于大型语言模型(LLM)和其他技术实现的智能实体,其核心功能在于自主理解、规划决策、执行复杂任务。AI Agent包括下面几个概念:Chain:通常一个AI Agent可能由多个Chain组成。一个Chain视作是一个步骤,可以接受一些输入变量,产生一些输出变量。大部分的Chain是大语言模型完成的LLM Chain。Router:我们可以使用一些判定(甚至可以用LLM来判定),然后让Agent走向不同的Chain。例如:如果这是一个图片,则a;否则b。Tool:Agent上可以进行的一次工具调用。例如,对互联网的一次搜索,对数据库的一次检索。总结下来我们需要三个Agent:Responser Agent:主agent,用于回复用户(伪多模态)Background Agent:背景agent,用于推进角色当前状态(例如进入下一个剧本,抽检生成增长的记忆体)Daily Agent:每日agent,用于生成剧本,配套的图片,以及每日朋友圈Responser AgentDaily AgentBackground Agent每隔一段时间运行一次(默认3分钟)分析期间的历史对话变更人物关系(亲密度,了解度等)变更反感度,如果超标则拉黑用户抽简对话内容,提取人物和用户的信息成为“增长的记忆体”按照时间推进人物剧本有概率主动聊天(与亲密度正相关,跳过夜间时间)[heading1]复杂的东西:中期记忆中的增长记忆体

Others are asking
any recommendation for using AI to create my own website
以下是一些使用 AI 创建自己网站的建议和推荐: Bard 建议使用“给 AI 下具体设计任务”的方式,而不是简单地“要求 AI 直接输出内容”。这可以让 AI 更好地发挥创造力,同时也便于人类对最终输出进行检查和修改。 设计网站 logo 时,应保持简单易记,使用相关符号或图标,选择与技术和信任相关的颜色(如蓝色、绿色、白色),使用一致的字体,并获取他人的反馈。 利用 AI 创建网站时,通过与 AI 交互输入需求可快速创建网站,发布后会获得网址。 代码下载后可能复制容易但修改不易,有的工具可选中特定版块修改,有的则需整体重写。 网站修改的方法如通过浏览器开发者工具修改 logo,可替换图片或删除后上传同名图片。 推荐的网页原型图生成工具包括: 即时设计:https://js.design/ ,是一款可在线使用的「专业 UI 设计工具」,为设计师提供更加本土化的功能和服务,相较于其他传统设计工具,更注重云端文件管理、团队协作,并将设计工具与更多平台整合,一站搞定全流程工作。 V0.dev:https://v0.dev/ ,Vercel Labs 推出的 AI 生成式用户界面系统。每个人都能通过文本或图像生成代码化的用户界面。它基于 Shadcn UI 和 Tailwind CSS 生成复制粘贴友好的 React 代码。 Wix: ,是一款用户友好的 AI 工具,可让您在没有任何编码知识的情况下轻松创建和自定义自己的网站,提供广泛的模板和设计供您选择,以及移动优化和集成电子商务功能等功能。Wix 建站工具通过拖放编辑、优秀模板和 250 多种 app,能帮助不同领域的用户创建所有种类的网站。 Dora:https://www.dora.run/ ,使用 Dora AI,可以通过一个 prompt,借助 AI 3D 动画,生成强大网站。支持文字转网站,生成式 3D 互动,高级 AI 动画。 请注意,以上内容由 AI 大模型生成,请仔细甄别。
2025-03-08
AI与SAAS结合
AI 与 SaaS 的结合具有以下特点和影响: 1. 像 Microsoft 推出的 Copilot 产品升级,如 Copilot Team 与 Studio,能让 Agent 融入企业内部,实现自动化的会议记录和日程安排,还能设计组织内部自动化流程,帮助操作办公软件。这表明软件应用范式已转移,AI Agent 成为新 SaaS。 2. 对于生成式 AI 对 SaaS 生态的影响,起初认为大公司不会受到太大冲击,因为初创公司和大公司各有优势,初创公司机会在于瞄准可自动化工作领域。但现在不确定是否低估了“AI 原生”的巨大潜力。 3. 二十年前传统软件公司对 SaaS 崛起的态度与如今对 AI 变革的态度可能类似。SaaS 带来了业务模式的全面变革,包括开发方式、市场策略和商业模式的转变,只有极少数传统公司成功转型。 4. OpenAI 的目标明确为 all in AGI,商业模式为 SaaS,直接提供 API,接口设计内部决定,按使用付费。其在一些产品上如 ChatGPT Plus、与第三方插件结合等方面的处理方式较为简单直接。
2025-03-08
AI和AGI的区别
AI(Artificial Intelligence,人工智能)和 AGI(Artificial General Intelligence,通用人工智能)有以下区别: 1. 能力范围: AI 通常指的是弱人工智能(ANI,Artificial Narrow Intelligence),它只能完成特定的任务,如智能音箱的语音交互、网站搜索、自动驾驶、工厂与农场的应用等。 AGI 则能够做任何人类可以做的事情。 2. 发展程度: ANI 已经取得了巨大的发展。 而 AGI 目前还没有取得巨大的进展。 3. 模型目的和底层数据量: 以往的 AI 被视为“工具”,而 AGI 更像是“大脑”。 OpenAI 主张的 AGI 模型,如 GPT 系列,致力于成为“世界模型”,将世界上所有的知识压缩到模型里,其底层数据量巨大,正在接近全人类所有数据的量级。
2025-03-08
AI能做什么?无所不能么
AI 具有广泛的应用和能力,但并非无所不能。以下是 AI 能够做到的一些方面: 在医疗领域,AI 可以辅助疾病的预测、诊断和治疗,例如通过训练神经网络预测蛋白质结构,从而推进结构生物学的发展,帮助预防抗生素耐药性、推进疾病研究以及加速对抗塑料污染。 在科学研究方面,AI 能够促进科学发现,例如用于拼凑出首张距离地球 5500 万光年的黑洞图像,还能解决长期困扰科学家的蛋白质折叠难题。 在医疗检测方面,AI 有助于提高疾病检测效率,如应用于乳腺癌筛查,使更多患者能更快接受筛查,让临床医生有更多时间为患者服务并提供更快速的治疗。 在农业领域,AI 机器人可以提高农业生产效率。 然而,对于一些终极问题,答案不可避免且坚决是否定的。但这并不意味着 AI 不能重要地帮助科学进步,例如在非常实用的层面上,语言模型可以为计算功能提供新的语言接口,并通过其知识提供高水平的“自动完成”,辅助科学工作中的“传统答案”或“传统的后续步骤”。
2025-03-08
有没有ai编程的AI rules
目前关于 AI 编程的 AI Rules 主要有以下内容: 在字节发布的全新 AI IDE Trae 中,由于其过于智能,有时难以控制其立即执行任务,且目前没有全局 AI Rules 的设置,需要用“”来引入规则。 在进行 AI 编程时,应遵循一定的准则。例如,能不编程尽量不编,优先寻找线上工具、插件、本地应用等现成的解决方案,先找现成的开源工具和付费服务,最后再考虑自己编程,且编程时要以终为始,聚焦目标。 在 Trae 中,可以新建一个文件“AI Rules”,将相关规则代码复制进去并保存。在与 AI 沟通需求时引入该文件,AI 会按照规则进行开发。同时,AI 生成的代码可能存在随机性和错误,需要花费时间调试 Bug,可以通过终端、测试网页功能时的“F12”等方式查看报错信息并修复。
2025-03-08
AI绘画,有免费的吗
目前有免费的 AI 绘画工具,例如 Imagen 3,其优势包括无需排队、免费使用、交互人性化、具有较好的语义理解能力以及灵活性等。此外,Stable Diffusion 也是主流的 AI 绘画软件,其优势在于开源免费、可以本地化部署、创作自由度很高,但需要较好的电脑配置。如果您想要了解更多关于 AI 绘画的信息,比如具体的安装方法,可以去看看 B 站的【秋葉 aaaki】这个 Up 主的视频。
2025-03-08
做一个每日收集兴趣信息的工具,如收集agent,从微信公众号上收集,应该怎么做
以下是一种通过文章链接订阅公众号,定时推送情报消息,并实现情报 CoT 问答的方式来做每日收集兴趣信息的工具: 1. 安装 Docker(假设已经装上) 浏览器打开:http://127.0.0.1:4000 或 http://wewerss 服务的 IP:端口(为上面设置的外部端口) 点开后,输入 Dash 管理页面密码 先点帐号管理,然后点“添加读书帐号”(即使用微信读书来实现公众号订阅),扫码添加帐号 然后在公众号源上,点添加 将您想订阅的公众号的一篇文章链接粘贴并点确定即可订阅公众号文章。但建议不要短时间订阅太多公众号(最好不超 40 个),然后在本地 data/目录会生成一个 SQLite 数据库文件 wewerss.db 2. 关于 Coze 工作流和 Bot 因为前面需要对多维表格操作,所以要先在 http://open.feishu.cn 上建一个飞书机器人,并添加知识库或多维表格编辑权限,具体可参考飞书文档。得到机器人的 app_id 和 app_secret 即可获得租用 token:tenant_access_token 来获取多维表格数据和编辑能力。 工作流一:通过微信文章链接进行文章解读成摘要报告。通过 LLM 能力,开源提示词如下。由于 Coze 使用 LLM 和批量执行任务延时的约束,建议不要同时处理太多文章(如 6 篇左右)。这样执行后,将多维表格的文章状态转换成“已通知”并生成简报。 消息情报官 Bot:最后可以通过 Coze,建定时任务,执行工作流二,并添加其他如分析文章和搜索文章的能力,即可变成一个消息情报官的 Agent,我们即可以获得想要的领域或行业情报,也可以深入挖掘相关情报的信息。然后发布到想要的平台,如:Coze 商店、豆包、飞书、微信、微信公众号、微信小程序等,即可使用。可以构建多个分身,就能收集整理不同领域和行业的情报信息。 如感兴趣欢迎联系交流合作。
2025-03-08
AI Agent MANUS个人助手是否可以本地私有化部署
目前没有明确的信息表明 AI Agent MANUS 个人助手可以本地私有化部署。 Manus 是一款由中国团队研发的全球首款通用型 AI 代理工具,于 2025 年 3 月 5 日正式发布。它区别于传统聊天机器人,具备自主规划、执行复杂任务并直接交付完整成果的能力。其技术架构主要基于多智能体架构,运行在独立的虚拟机中,核心功能由多个独立模型共同完成,包括规划、执行和验证三个子模块,还包括虚拟机、计算资源、生成物、内置多个 agents 等关键组件,并采用了“少结构,多智能体”的设计哲学。 但对于其是否能本地私有化部署,现有资料未给出确切说明。在构建高质量的 AI 数字人方面,由于整个数字人的算法部分组成庞大,几乎不能实现单机部署,特别是大模型部分,算法一般会部署到额外的集群或者调用提供出来的 API。而在本地部署资讯问答机器人方面,有相关案例,但未提及与 AI Agent MANUS 个人助手的直接关联。
2025-03-07
AI Agent MANUS个人助手
AI Agent MANUS 个人助手是一种真正自主的 AI 代理。它区别于传统的 AI 助手,能够自主完成复杂任务,不仅生成想法,还能直接执行并交付结果。其核心亮点包括: 1. 自主执行:可直接执行任务,而非仅提供建议。 2. 类人工作模式:能解压文件、浏览网页、阅读文档、提取关键信息等。 3. 云端异步运行:在后台执行任务,完成后自动通知用户。 4. 持续学习和记忆:从用户反馈中学习,提高未来任务的准确性。 5. “心智与手”理念:象征着实际执行能力。 在构建高质量的 AI 数字人时,涉及到为数字人构建灵魂,使其具备各种智能,充当个人助手等。其中在构建数字人灵魂方面,有以下几个工程关键点: 1. AI Agent:要让数字人像人一样思考,需要编写一个像人一样的 Agent,工程实现所需的记忆模块、工作流模块、各种工具调用模块的构建存在挑战。 2. 驱动躯壳的实现:灵魂部分通过定义接口由躯壳部分通过 API 调用,调用方式视躯壳部分的实现而定。但包含情绪的语音表达以及保证躯壳的口型、表情、动作和语音的同步及匹配存在困难,目前主流方案只能做到预设一些表情动作,再做一些逻辑判断来播放预设,语音驱动口型相对成熟但闭源。 3. 实时性:由于数字人的算法部分组成庞大,几乎不能实现单机部署,特别是大模型部分,算法一般会部署到额外的集群或者调用提供出来的 API,会涉及到网络耗时和模型推理耗时,低延时是亟需解决的问题。 4. 多元跨模态:仅仅语音交互的数字人远远不够,可根据实际需求添加其他感官,如通过添加摄像头数据获取视觉信息,再通过系列 CV 算法做图像解析等。 5. 拟人化场景:正常与人交流时并非线性对话,会有插话、转移话题等情况,这些情景的工程处理需要优化。 在人工智能的发展历程中,Agent(智能代理)一直是令人着迷的概念之一。2024 年,Agent 技术实现了从概念到实践的关键突破。例如,当对手机下达指令“帮我给同事的朋友圈点赞”,AI 就能识别屏幕并完成操作。这种进化展示了 AI 不仅能“听懂”,还能“思考”和“行动”,会分析任务、规划步骤、选择工具,甚至在遇到问题时及时调整策略。2024 年,Anthropic 的 Computer Use、智谱 AI 的 AutoGLM 以及 Google 的 Gemini 2.0 等都展示了 AI Agent 的突破性进展。这种接近成型的工程化的 Agent 核心在于四个关键能力的进展,但在过往,类似的 Agent 能力存在成功率不高、泛化能力不够强等问题,训练模型识别所有 App 的 UI 很难,模型进行自主操作也是难点。
2025-03-07
agent有哪些文章推荐?
以下是为您推荐的关于 agent 的文章: 从下往上看,一个一个点进去,都有视频。共学都有视频,都是手把手从注册开始的教学,不会就多看几遍,基本保障一个工具能调通、一个 Agent 能搭好。 注意事项:确实内容有点多,点进去看看哪个工具您听过就从哪个工具开始吧,不然太累啦。 看了一些视频之后,您就知道您要看理论还是应用了,找到导航,想看哪里点哪里。 备注:智能千帆、阿里云百炼都是有视频的,其余没有视频。 注意事项:确实内容有点多,您如果都看到这里了,就要考虑聚焦了,先挑一个,开始手把手一起做起来,看看能不能持续用起来,只要您开始用起来,这事儿就成啦! 增加了 AI Agent 图谱,由共建者缱绻怡然制作。 》,作者孔某人,主要讨论基于 LLM 的复杂 Agent 的实现。 《》,来自有新 Newin,Essential AI 由两位谷歌重要研究论文的作者 Ashish Vaswani 和 Niki Parmar 创立,2017 年在谷歌工作时与他人一起共同撰写了具有重要影响力的论文《Attention Is All You Need》。Essential AI 正在开发全栈 AI 产品,这些产品具备快速学习能力,能够通过自动化繁琐且耗时的工作流程来提高生产力。 Tesla 发布 Optimus Gen2 机器人,现在拥有更加精致的外观,并且比 5 月份特斯拉展示 Optimus Gen1 时的速度快了 30%,。 《》是微软亚洲研究院、华为天才少年李博杰的一篇文章,虽然目前的大模型技术已经非常强大,应付日常的 chat 并不难,但做一个有多模态能力、有记忆、能解决复杂任务、会利用工具、有性格、有情感、有自主性、低成本、高可靠的 AI Agent 并不容易。如果说 Chat 是大模型的第一个应用场景,也许 Agent 才是大模型真正的 killer app。 《》的 GitHub 地址,收集了多模态大型语言模型的最新论文和数据集及其评估。 《》是知识库的好友「INDIGO 的数字镜像」万字长文,本探讨在新一轮的 AI 变革之下,如何用新工具来帮助扩展大脑思维与记忆的边界,以及知识工作流的新方法,激发潜能,构建外脑!强烈推荐阅读。 《》是波士顿咨询的一篇新文章,讲述 CEO 抓住机遇和应对挑战,他们必须在三个关键支柱上做出选择:潜力、人员和政策。 收集群友的每日创作。
2025-03-07
什么是AI AGENT
AI Agent 是基于大型语言模型(LLM)和其他技术实现的智能实体,其核心功能在于自主理解、规划决策、执行复杂任务。 AI Agent 包括以下几个概念: 1. Chain:通常一个 AI Agent 可能由多个 Chain 组成。一个 Chain 视作是一个步骤,可以接受一些输入变量,产生一些输出变量。大部分的 Chain 是大语言模型完成的 LLM Chain。 2. Router:我们可以使用一些判定(甚至可以用 LLM 来判定),然后让 Agent 走向不同的 Chain。例如:如果这是一个图片,则 a;否则 b。 3. Tool:Agent 上可以进行的一次工具调用。例如,对互联网的一次搜索,对数据库的一次检索。 总结下来我们需要三个 Agent: 1. Responser Agent:主 agent,用于回复用户(伪多模态)。 2. Background Agent:背景 agent,用于推进角色当前状态(例如进入下一个剧本,抽检生成增长的记忆体)。 3. Daily Agent:每日 agent,用于生成剧本,配套的图片,以及每日朋友圈。 这三个 Agent 每隔一段时间运行一次(默认 3 分钟),运行时会分析期间的历史对话,变更人物关系(亲密度,了解度等),变更反感度,如果超标则拉黑用户,抽简对话内容,提取人物和用户的信息成为“增长的记忆体”,按照时间推进人物剧本,有概率主动聊天(与亲密度正相关,跳过夜间时间)。 此外,心灵社会理论认为,智能是由许多简单的 Agent(分等级、分功能的计算单元)共同工作和相互作用的结果。这些 Agent 在不同层次上执行不同的功能,通过协作实现复杂的智能行为。心灵社会将智能划分为多个层次,从低层次的感知和反应到高层次的规划和决策,每个层次由多个 Agent 负责。每个 Agent 类似于功能模块,专门处理特定类型的信息或执行特定任务,如视觉处理、语言理解、运动控制等。智能不是集中在单一的核心处理单元,而是通过多个相互关联的 Agent 共同实现。这种分布式智能能够提高系统的灵活性和鲁棒性,应对复杂和多变的环境。同时,在《心灵社会》中,还存在专家 Agent(拥有特定领域知识和技能,负责处理复杂的任务和解决特定问题)、管理 Agent(协调和控制其他 Agent 的活动,确保整体系统协调一致地运行)、学习 Agent(通过经验和交互,不断调整和优化自身行为,提高系统在不断变化环境中的适应能力)。从达特茅斯会议开始讨论人工智能(Artificial Intelligence),到马文·明斯基引入“Agent”概念,往后,我们都将其称之为 AI Agent。
2025-03-06
用ai作为自己的教练agent如何实现
要将 AI 作为自己的教练 Agent 实现,需要考虑以下几个方面: 1. 构建数字人灵魂: AI Agent:需要编写像人一样的 Agent,工程实现所需的记忆模块、工作流模块、各种工具调用模块的构建具有挑战性。 驱动躯壳的实现:定义灵魂部分的接口,躯壳部分通过 API 调用,如 HTTP、WebSocket 等,但要处理好包含情绪的语音表达以及躯壳的口型、表情、动作和语音的同步及匹配。 实时性:由于算法部分组成庞大,几乎不能单机部署,需解决网络耗时和模型推理耗时导致的响应慢问题。 多元跨模态:不仅要有语音交互,还可根据实际需求加入其他感官,如通过添加摄像头数据获取视觉信息。 拟人化场景:处理好插话、转移话题等非线性对话情景。 2. 借助开源社区力量: 推荐使用像 dify、fastgpt 等成熟的高质量 AI 编排框架,可快速编排出自己的 AI Agent。 例如在开源项目中使用 dify 框架,能利用其编排和可视化交互修改流程,构造不同的 AI Agent,实现复杂功能,如知识库搭建、工具使用等,无需编码和重新部署。 Dify 的 API 暴露了 audiototext 和 texttoaudio 接口,可用于数字人的语音识别和生成控制。 对于高度定制的模型,可在 Dify 中接入 XInference 等模型管理平台并部署自己的模型,同时数字人 GUI 工程保留多个模块以保持扩展。 然而,在实际操作中也存在一些问题,如沉淀领域知识喂给 AI 并不断调教并非能保持愉悦,可能会从兴奋转为嫌弃,且国产大模型存在一些桎梏,调优反复,多数人尝试后又回到舒适模式。但仍可通过不断探索和尝试来实现将 AI 作为教练 Agent 的目标。
2025-03-06
利用ai对毕业论文扩写应该使用什么提示词
以下是一些利用 AI 对毕业论文扩写的提示词示例: 1. 请对这部分论文内容进行详细扩展,补充更多相关案例和数据,以增强论证的说服力。 2. 基于现有的论文内容,进一步阐述观点,丰富理论依据,并增加相关领域的前沿研究成果。 3. 对这段论述进行深化,从多个角度展开分析,同时融入更多的学术引用和参考文献。 4. 请将此部分内容扩展为更完整的篇章,增加细节描述,使论述更加全面和深入。 在使用提示词时,要注意内容的准确性和逻辑性,确保扩写后的论文质量得到提升。
2025-03-08
教我使用coze
Coze 是新一代一站式 AI Bot 开发平台,无论您是否有编程基础,都可以在该平台上快速搭建基于 AI 模型的各类问答 Bot。以下是关于 Coze 的一些重要信息和使用教程: Coze 概述: 字节的官方解释:Coze 是新一代一站式 AI Bot 开发平台,能让您快速搭建从解决简单问答到处理复杂逻辑对话的 Bot,并可将其发布到各类社交平台和通讯软件上与用户互动。 个人观点:Coze 是字节针对 AI Agent 领域的初代产品,在 Coze 中称 AI Agent 为 Bot。 部署站点: 国内版: 网址:https://www.coze.cn 官方文档教程:https://www.coze.cn/docs/guides/welcome 大模型:使用字节自研的云雀大模型,国内网络可正常访问。 海外版: 网址:https://www.coze.com 官方文档教程:https://www.coze.com/docs/guides/welcome 大模型:GPT4、GPT3.5 等大模型(访问需突破网络限制的工具,参考文档:https://www.coze.com/docs/zh_cn/welcome.html ) AI Agent 的开发流程: Bot 的开发和调试页面布局主要分为以下几个区块: 提示词和人设的区块 Bot 的技能组件 插件 工作流 Bot 的记忆组件 知识库 变量 数据库 长记忆 文件盒子 一些先进的配置 触发器:例如定时发送早报 开场白:用户和 Bot 初次对话时,Bot 的招呼话语 自动建议:每当和 Bot 一轮对话完成后,Bot 给出的问题建议 声音:和 Bot 对话时,Bot 读对话内容的音色 使用 Coze 的步骤: 1. 先跑起来,创建第一个 bot: 目标:创建一个能帮您查阅 Hacker News 并中文返回的 Coze Bot。 操作:打开 coze.cn/home,点击创建 Bot,信息随便输。尝试联网,询问“今天的 hacker news 上有什么新闻?”,若答不出,引入联网插件 WebPilot(插件>+>选择 WebPilot),重新尝试联网,再次询问上述问题,即可成功。 2. Step1:用上「回复逻辑」,让它能将链接转换成回答。 3. Step2:发布到飞书,基本成型。 4. Step3:【进阶】使用工作流/workflow&代码/code,更灵活自定。
2025-03-08
openai deep research使用技巧
OpenAI 的 Deep Research 功能能够整合多源信息,进行复杂的信息查询与分析,并生成专业水准的报告,同时详细展示思考和搜索过程。目前,该功能仅支持文本输出,未来还将增加嵌入式图片、数据可视化等功能。使用入口为在 ChatGPT 输入框中选择「Deep Research」模式,输入问题后即可开始体验。 在 OpenAI 推出「Deep Research」功能一天后,Hugging Face 的工程师迅速联合推出了免费开源的版本 Open Deep Research,能自主浏览网页、滚动页面、处理文件,以及基于数据进行计算。使用入口为前往 Demo 网站(opendeepresearch.vercel.app)体验。 Deep Research 让 AI 自动完成多步骤研究任务,快速分析海量信息并生成专业报告,具备自动化信息汇总、文献引用与多领域适用性,适合科研、工程、金融等行业。目前向 Pro 用户开放,未来将扩展至 Plus 和 Team 用户,并提供更强大的功能。 该智能体基于优化版 OpenAI o3 模型,结合网络浏览和 Python 分析能力,实现高效研究,适用于科学、政策、工程等高强度知识工作,也能帮助购物者做复杂决策。Pro 用户已可使用,后续将逐步向 Plus、Team 和企业用户开放。
2025-03-08
chatgpt plus使用技巧
以下是关于 ChatGPT Plus 的使用技巧: 安卓系统安装、订阅教程: 1. 订阅方法: 目前订阅 PLUS 版本有多种方法,手机端订阅较为简单方便。安卓手机可使用谷歌支付,苹果手机可在支付宝购买礼品卡充值到苹果 ID 里进行订阅。 首先在谷歌账号里绑定谷歌支付,支持国内的双币信用卡或全币信用卡。打开谷歌商店,依次点击“付款和订阅”“付款方式”“添加信用卡或借记卡”,填写信用卡信息后点击保存卡,付款方式中就会出现绑定的信用卡。 打开 ChatGPT 手机应用,选择谷歌账号登录,选择相应账号后,点击打开外部应用,成功登录 ChatGPT 后点 Continue 继续,点击顶部 get plus 按钮,再点击订阅按钮,此时会跳出谷歌支付的界面,确定订阅即可。日后如需取消订阅,可到谷歌商店的账号管理、付款和订阅里面取消。 2. 安装步骤: 安装 Google Play:到小米自带的应用商店搜索 Google Play 进行安装,安装好后打开,按照提示操作登录。 下载安装 ChatGPT:到谷歌商店搜索“ChatGPT”进行下载安装,开发者是 OpenAI,注意别下错。可能会遇到“google play 未在您所在的地区提供此应用”的问题,可在 google play 点按右上角的个人资料图标,依次点按:设置>常规>帐号和设备偏好设置>国家/地区和个人资料,添加国内双币信用卡,地区选美。若仍搜不到,可卸载重装 Google Play,保持梯子的 IP 一直是美,多试几次。 3. 体验与订阅 GPT4 Plus 版本: 若只想体验 ChatGPT 3.5 版本,不升级 GPT4,直接登录注册好的 ChatGPT 账号即可。 若想订阅 GPT4 Plus 版本,需先在 Google play 中的【支付和订阅】【支付方式】中绑定好银行卡,然后在 ChatGPT 里订阅 Plus。 GPT4 Vision 目前仅适用于 ChatGPT Plus 和企业用户。ChatGPT Plus 每月收费 20 美元,可从常规免费 ChatGPT 帐户升级到。访问方法为:访问 OpenAI ChatGPT 网站并注册一个帐户,登录帐户并导航到“升级到 Plus”选项,继续升级以获得 ChatGPT Plus 的访问权限(需每月 20 美元的订阅费),在聊天窗口中选择“GPT4”作为模型,点击图片图标上传图片,并添加提示,指示 GPT4 执行。
2025-03-08
我想批量给书画作品分类,区分他们的内容(国画或者书法),字体,题材(山水、人物、花鸟),技法(工笔、写意),可以使用什么ai
以下是为您提供的相关信息: 在书画作品分类方面,目前没有直接针对您需求的特定 AI 工具。但一些通用的 AI 技术和工具可能会有所帮助,例如利用图像识别技术对书画作品的内容、字体、题材和技法进行初步分析。 对于图像识别,一些常见的 AI 框架如 TensorFlow、PyTorch 等可以用于开发自定义的图像分类模型。 在 AI 绘图中,了解构图、色彩和光影等因素很重要,如构图包括景别(远景、全景、中景、近景、特写)和拍摄视角(俯视、平视、仰视,正面、侧面、背面),构图方式有点中心构图、九宫格构图、三分法构图等。 但需要注意的是,要实现您批量准确分类书画作品的需求,可能需要大量的标注数据和专业的模型训练。
2025-03-07
如何使用deepseek写论文
使用 DeepSeek 写论文可以参考以下几点: 1. 给予 DeepSeek 更多自由发挥的空间:旧模型在文学创作时存在一些弊端,如过度道德说教和正面描述趋势,导致结果生硬死板。使用 DeepSeek 时要在控制和自由间平衡。 2. 利用其文风优势:DeepSeek 文风优秀,有哲学思考,能触动人情感,文创能力顶尖。 3. 注意模型的特点:DeepSeek 在写文方面全面领先,但长文可能会太发散,文风用力过猛,可能导致审美疲劳,且模型多样性不够,相同 prompt 提问多次答案雷同。 4. 控制创作字数:可以用 O1 模型对 AI 创作的字数进行控制,也可通过多轮对话让 AI 增删改查来调整字数。 同时,还可以参考其他人使用 DeepSeek 的经验,如让 Deepseek 模仿特定小说家的文学方式创作,在提示词中描述文风特征等。
2025-03-07