Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

构建一个Agent会从计划、记忆、工具、行动,4个方面来描述。那么每个方面具体都包含一些什么内容

Answer

构建一个 Agent 通常从计划、记忆、工具、行动这 4 个方面来描述,每个方面具体包含的内容如下:

计划(Planning)

  • 子目标分解:将大型任务分解为较小可管理的子目标,以便有效处理复杂任务。
  • 反思与改进:对过去的行动进行自我批评和自我反思,从错误中学习并改进未来的步骤,从而提高最终结果的质量。

记忆(Memory)

  • 短期记忆:将所有的上下文学习视为利用模型的短期记忆来学习。
  • 长期记忆:通过利用外部的向量存储和快速检索来提供长期存储和召回信息的能力。

工具(Tools): Agents 学习调用外部 API 来获取模型权重中缺失的额外信息,包括当前信息、代码执行能力、对专有信息源的访问等。

行动(Action): 当接收到任务时,GPT 会先思考决定如何使用工具,然后可能会出现一个小图示,告知用户它尝试使用工具来完成任务。例如在让它搜索、画图时,它会做出相应的行动。

Content generated by AI large model, please carefully verify (powered by aily)

References

像高手一样编写 GPT:从基础到实践,学习使用 GPT 的 Action

“大型语言模型的潜力不仅仅在于创作出流畅的文本、故事、论文和程序;它还可以被视为一个强大的通用问题解决工具。”和开头提到的计算机领域的通用比,Lilian进一步具体化了Agent的能力模型:在Lilian看来,Agent的能力被具象为三大类:1.规划2.记忆3.使用工具(工具+行为Action)你可能有印象——在之前的GPT-4,画图工具Dall-E,Bing搜索,插件,和代码解释器,都需要切换不同的会话/窗口实现的。后来GPT-4成为了GPT:All-Tools,可以在一个会话里根据用户需求和上下文自行选择工具,并且做出行动——这个行动,就是OpenAI定义的“Action”,如下图:当你在让它搜索,画图的时候,GPT会先思考决定怎么使用工具,然后会出现一个小图示,告诉你他尝试使用工具来完成你的任务。现在你应该能够认清AI-Agent、GPT和Action之间的联系了:GPT(All-Tools,也是现在大家正在开发的“GPTs”),是OpenAI之于传统Agent定义交上的一份答卷——具体的描绘了在大语言模型(LLM)驱动下Agent的系统实现方式。即:使用LLM驱动,通过外部API获取信息和执行的行动(Action),也是本文后半部提到的Action的定义,如下:

Inhai: Agentic Workflow:AI 重塑了我的工作流

吴恩达通过开源项目ChatDev进行举例,你可以让一个大语言模型扮演不同的角色,比如让一个Agent扮演公司CEO、产品经理、设计师、代码工程师或测试人员,这些Agent会相互协作,根据需求共同开发一个应用或者复杂程序。AI Agent基本框架OpenAI的研究主管Lilian Weng曾经写过一篇博客叫做《LLM Powered Autonomous Agents》,其中就很好的介绍了Agent的设计框架,她提出了“Agent = LLM +规划+记忆+工具使用”的基础架构,其中大模型LLM扮演了Agent的“大脑”。Planning(规划)主要包括子目标分解、反思与改进。将大型任务分解为较小可管理的子目标处理复杂的任务。而反思和改进指可以对过去的行动进行自我批评和自我反思,从错误中学习并改进未来的步骤,从而提高最终结果的质量。Memory(记忆)分为短期记忆和长期记忆。其中短期记忆是指的将所有的上下文学习看成是利用模型的短期记忆来学习;而长期记忆是提供了长期存储和召回信息的能力,它们通常通过利用外部的向量存储和快速检索来存储和召回信息。Tools(工具)

问:什么是智能体 Agent

智能体是一种自主系统,它可以通过感知环境(通常通过传感器)并采取行动(通常通过执行器)来达到某种目标。在LLM支持的自主Agent系统中,LLM充当Agents的大脑,并辅以几个关键组成部分:规划子目标和分解:Agents将大型任务分解为更小的、可管理的子目标,从而能够有效处理复杂的任务。反思和完善:Agents可以对过去的行为进行自我批评和自我反思,从错误中吸取教训,并针对未来的步骤进行完善,从而提高最终结果的质量。记忆短期记忆:所有的上下文学习都是利用模型的短期记忆来学习。长期记忆:这为Agents提供了长时间保留和回忆(无限)信息的能力,通常是通过利用外部向量存储和快速检索来实现。工具使用Agents学习调用外部API来获取模型权重中缺失的额外信息(通常在预训练后很难更改),包括当前信息、代码执行能力、对专有信息源的访问等。

Others are asking
RAG与Agent如何结合应用
RAG 与 Agent 的结合应用可以通过以下步骤实现: 1. 数据加载:根据数据源类型选择合适的数据加载器,如网页可使用 WebBaseLoader 加载和解析,返回文档对象。 2. 文本分割:依据文本特点选择合适的文本分割器,将文档对象分割成较小的对象,如博客文章可用 RecursiveCharacterTextSplitter 分割。 3. 嵌入与存储:使用文本嵌入器和向量存储器将文档对象转换为嵌入并存储,根据质量和速度选择合适的,如 OpenAI 的嵌入模型和 Chroma 的向量存储器。 4. 创建检索器:通过向量存储器检索器,传递向量存储器对象和文本嵌入器对象作为参数,创建用于根据用户输入检索相关文档对象的检索器。 5. 创建聊天模型:根据性能和成本选择合适的聊天模型,如使用 OpenAI 的 GPT3 模型,根据用户输入和检索到的文档对象生成输出消息。 以餐饮生活助手为例,基于结构化数据来 RAG 实战: 1. 定义餐饮数据源:将餐饮数据集转化为 Langchain 可识别和操作的数据源,如数据库、文件、API 等,并注册到 Langchain 中,提供统一接口和方法供 LLM 代理访问和查询。 2. 定义 LLM 的代理:通过 Langchain 的代理(Agent)实现,代理管理器可让开发者定义不同的 LLM 代理及其功能和逻辑,提供统一接口和方法供用户交互。 以下是使用 LangChain 构建 RAG 应用的示例代码。
2025-01-06
RAG,Agent 与小模型
以下是关于 RAG、Agent 与小模型的相关知识: RAG(RetrievalAugmented Generation,检索增强生成): 大语言模型存在输出结果不可预测、知识有局限性、幻觉问题和数据安全性等问题,RAG 是解决这些问题的有效方案。 它能让大模型从权威的、预先确定的知识来源中检索和组织相关信息,更好地控制文本输出,用户也能了解生成结果的过程。 RAG 类似于为模型提供教科书,适用于回答特定询问或解决特定信息检索任务,但不适合教模型理解广泛领域或学习新语言、格式或样式。 RAG 可与微调结合使用,两者不冲突。微调类似于让学生内化知识,适用于模型需要复制特定结构、样式或格式的情况。 Agent(智能体): 是大模型的一个主要发展方向。 中间的“智能体”通常是 LLM(大语言模型)。 为 LLM 增加了工具、记忆、行动、规划四个能力。 目前行业里主要用到的是 langchain 框架,它把 LLM 和 LLM 之间以及 LLM 和工具之间通过代码或 prompt 的形式进行串接。 比如长期记忆是给大模型一个数据库工具记录重要信息,规划和行动是在大模型的 prompt 层做逻辑,让其将目标拆解并输出固定格式指令给工具。 小模型:文中未提及小模型的相关具体内容。
2025-01-06
国内Agent平台有哪些
国内的 Agent 平台主要有以下这些: 1. 扣子 coze.cn:可以在几分钟内完成 Agent 创建,有多种常见 Bot 类型,如讲故事、减肥提醒等。 2. 百度 AppBuilder:基于百度的技术和资源。 3. 阿里通义千问:具有一定的特色和功能。 4. 文心智能体:百度推出的基于文心大模型的智能体平台,支持开发者按需打造产品能力。 5. Myshell:具有创作者收入,其状态机的架构设计带来新体验。 6. 斑头雁:适用于 2B 基于企业知识库构建专属 AI Agent,有多种成熟模板,适用于客服、营销、销售等场景。 7. 钉钉 AI 超级助理:依托钉钉的优势,在处理高频工作场景方面表现出色。 以上信息仅供参考,您可以根据自身需求选择适合的平台。
2025-01-06
RAG与Agent如何结合应用
RAG 与 Agent 的结合应用主要通过以下步骤实现: 1. 数据加载:根据数据源类型选择合适的数据加载器,如对于网页数据源可使用 WebBaseLoader 加载和解析网页,获取文档对象。 2. 文本分割:依据文本特点选用合适的文本分割器,将文档对象分割成较小的文档对象。例如,对于博客文章可用 RecursiveCharacterTextSplitter 递归分割。 3. 嵌入与存储:使用文本嵌入器将文档对象转换为嵌入,并存储到向量存储器中。可根据嵌入质量和速度选择,如 OpenAI 的嵌入模型和 Chroma 的向量存储器。 4. 创建检索器:通过向量存储器检索器,传递向量存储器对象和文本嵌入器对象作为参数,创建用于根据用户输入检索相关文档对象的检索器。 5. 创建聊天模型:根据模型性能和成本选择合适的聊天模型,如 OpenAI 的 GPT3 模型,用于根据用户输入和检索到的文档对象生成输出消息。 以餐饮生活助手为例,展示基于结构化数据的 RAG 实战: 1. 定义餐饮数据源:将餐饮数据集转化为 Langchain 可识别和操作的数据源,如数据库、文件、API 等,并注册到 Langchain 中,提供统一接口和方法供 LLM 代理访问和查询。 2. 定义 LLM 的代理:通过 Langchain 的代理(Agent)实现,提取用户问题的核心信息和条件,形成标准查询语句,检索餐饮数据源并生成合适答案输出给用户。代理管理器可定义不同的 LLM 代理及其功能逻辑,提供统一接口和方法方便用户交互。 以下是使用 LangChain 构建 RAG 应用的示例代码。
2025-01-06
RAG,Agent 与小模型
以下是关于 RAG、Agent 与小模型的相关知识: Agent: Agent 是大模型的一个热门概念,被认为是大模型未来的主要发展方向之一。 其本质是在大模型(如 LLM)基础上增加工具、记忆、行动、规划这四个能力。 目前行业里主要用到的是 langchain 框架,它把 LLM 和 LLM 之间以及 LLM 和工具之间通过代码或 prompt 的形式进行串接。 例如,长期记忆相当于给大模型一个数据库工具让其记录重要信息,规划和行动则是在大模型的 prompt 层做逻辑设计,如将目标拆解并输出不同的固定格式 action 指令给工具。 RAG: 向量相似性检索,可以放在 system prompt 里或通过 tools 触发检索。 当大模型应用于实际业务场景时,会存在知识局限性、幻觉问题、数据安全性等问题,RAG 是解决这些问题的有效方案。 它能让大模型从权威、预先确定的知识来源中检索和组织相关信息,更好地控制生成的文本输出,用户也能了解 LLM 生成最终结果的过程。 RAG 可与微调结合使用,RAG 类似于为模型提供教科书,适用于回答特定询问或解决特定信息检索任务,不适合教模型理解广泛领域或学习新的语言、格式或样式。 小模型:文中未提及小模型的相关具体内容。
2025-01-06
RAG,Agent 与小模型
以下是关于 RAG、Agent 与小模型的相关知识: Agent: Agent 是大模型的一个热门发展方向。 中间的“智能体”通常是 LLM 或大模型,通过为其增加工具、记忆、行动、规划这四个能力来实现。 目前行业里主要用到的是 langchain 框架,它把 LLM 与 LLM 之间以及 LLM 与工具之间通过代码或 prompt 的形式进行串接。 比如长期记忆,就是给大模型一个数据库工具让其往里记录重要信息;规划和行动则是在大模型的 prompt 层做逻辑设计,如将目标进行拆解并输出不同的固定格式 action 指令给工具。 RAG: 向量相似性检索,可放在 system prompt 里或通过 tools 触发检索。 当有 Action 时,触发 tool_calls 标记,进入请求循环,拿模型生成的请求参数进行 API request,再把结果返回给大模型进行交互;没有 tool_calls 标记时,循环结束。 大语言模型存在输出结果不可预测、知识局限性、幻觉问题和数据安全性等问题,RAG 是解决这些问题的有效方案。 它能让大模型从权威的、预先确定的知识来源中检索、组织相关信息,更好地控制文本输出,用户也能深入了解 LLM 生成最终结果的过程。 RAG 类似于为模型提供教科书,适用于回答特定询问或解决特定信息检索任务,但不适合教模型理解广泛领域或学习新的语言、格式或样式。 小模型:文中未提及小模型的相关具体内容。
2025-01-06
有数据分析方面的AI应用么
以下是一些数据分析方面的 AI 应用: ChatGPT 助力数据分析:通过实际案例与相关技巧,实现了两种方式的多维数据分析,包括 SQL 分析和个性化分析。分析完成后可展示结果数据的图表和分析结论,图表支持折线图和柱状图切换。 AI 儿童安全座椅推荐系统:利用数据分析和机器学习,如宝宝树安全座椅推荐,为家长推荐合适的儿童安全座椅。 AI 汽车保养套餐推荐系统:结合数据分析和机器学习,如途虎养车保养推荐,根据车辆情况推荐保养套餐。 AI 物流快递柜管理系统:借助数据分析和物联网技术,如丰巢快递柜管理系统,优化快递柜使用效率。 AI 招聘面试模拟平台:运用自然语言处理和机器学习,如智联招聘面试模拟功能,帮助求职者进行面试模拟。 AI 房地产装修设计平台:使用图像生成和机器学习,如酷家乐装修设计软件,为用户提供装修设计方案。 AI 游戏道具推荐系统:基于数据分析和机器学习,在一些游戏的内商城推荐功能中,根据玩家需求推荐游戏道具。 AI 天气预报分时服务:利用数据分析和机器学习,如彩云天气分时预报,提供精准的分时天气预报。 AI 医疗病历分析平台:通过数据分析和自然语言处理,如医渡云病历分析系统,分析医疗病历,辅助诊断。 AI 会议发言总结工具:运用自然语言处理和机器学习,如讯飞听见会议总结功能,自动总结会议发言内容。 AI 书法作品临摹辅助工具:借助图像识别和数据分析,如书法临摹软件,帮助书法爱好者进行临摹。
2025-01-06
我想做一个停车场方面相关的智能AI机器人
以下是关于停车场相关智能 AI 机器人的一些参考和建议: 摊位信息方面: 可以参考类似的摊位设置,如 MBTI 开运写真/头像、多模型多平台 AI 对话软件、主产品为 AI 脑筋急转弯和谜语问答并提供相关困惑解答、技术与工具教学agent 技巧、一键定制专属徽章等。 赛道说明方面: 借鉴汽车品牌相关的 AI 座舱赛道,例如对于车辆操作、状态查询或故障诊断等问题提供专业解答,利用车身硬件条件和软件生态自定义各种高频用车场景的智能体,提升车内人员的驾驶舒适性、娱乐性、趣味性、安全性体验等。 活动参考方面: 参考“AI 切磋摆摊大会”,利用类似支付宝百宝箱这样的无需代码基础的 AI 应用开发平台为摊位提供技术支持,配备专业的咨询智能体,展示各种有趣的 AI 应用,如 AI 绘画、AI 音乐、AI 视频剪辑等。 综合以上内容,您在开发停车场相关的智能 AI 机器人时,可以考虑以下几点: 1. 明确机器人的功能和服务,如提供停车场车位查询、引导停车、车辆状态监测等。 2. 利用自然语言处理技术,实现用户与机器人的便捷交流。 3. 结合图像识别等技术,实现对车辆和车位的准确识别。 4. 提供个性化的服务,根据用户的需求和习惯提供定制化的建议和引导。
2025-01-04
临床医生哪些方面可以用的到ai
临床医生在以下方面可以用到 AI: 1. 医学影像分析:AI 可用于辅助分析 X 射线、CT 扫描和 MRI 等医学图像,以辅助诊断疾病。 2. 药物研发:加速药物研发过程,例如识别潜在的药物候选物和设计新的治疗方法。 3. 个性化医疗:分析患者数据,为每个患者提供个性化的治疗方案。 4. 机器人辅助手术:控制手术机器人,提高手术的精度和安全性。 5. 医疗保健交付和后勤功能:例如文档工作可交给 AI 书记员。 6. 初级医疗服务中的分诊:依赖聊天机器人进行分诊。
2025-01-03
给人工智能伦理建设提出建议,在内容和体系方面都可以
以下是为人工智能伦理建设提出的一些建议: 在内容方面: 1. 关注算法的可解释性,使人工智能的决策过程能够被理解和解释。 2. 研究方法以评估、表征和减少数据集中及人工智能系统中的偏差。 3. 确保人工智能系统的安全性和鲁棒性,包括进行保证、验证、校验、安全和控制等方面的工作。 4. 重视隐私和安全,包括用于训练和推理人工智能系统的数据集,以及相关的软件和硬件。 5. 研究人工智能系统在科学发现和社会挑战方面的应用。 6. 考虑人工智能系统对社会、伦理、安全、教育、劳动力和安全等方面的影响,特别是对社会中不同群体,尤其是历史上被边缘化的群体的社会影响。 7. 进行定性和定量的未来能力、应用和影响的预测。 在体系方面: 1. 开展教育项目,支持在 K12、社区学院、本科、研究生、博士后、成人学习和再培训等阶段培养与人工智能系统相关的多样化劳动力。 2. 提高对人工智能系统的伦理、社会、安全和安全影响的认识。 3. 促进对人工智能原理和方法的广泛理解,以培养能够使用人工智能产品并适应其带来的社会和经济变化的劳动力和公众。 4. 针对不同的行业应用,如智能制造、智能家居、智慧城市、科学智算等,制定相应的标准,规范技术要求和应用场景。 5. 制定安全标准,规范人工智能全生命周期的安全要求,包括基础安全、数据、算法和模型安全、网络技术和系统安全、安全管理和服务、安全测试评估、安全标注、内容标识、产品和应用安全等。 6. 制定治理标准,规范人工智能的技术研发和运营服务等要求,包括人工智能的鲁棒性、可靠性、可追溯性的技术要求与评测方法,以及全生命周期的伦理治理要求,如伦理风险评估、公平性、可解释性等伦理治理技术要求与评测方法,还有伦理审查等标准。
2025-01-02
欧盟人工智能法案对我国在生成式人工智能方面立法的启示。
欧盟人工智能法案对我国在生成式人工智能方面立法具有以下启示: 1. 立法理念方面:我国与欧盟在人工智能立法上有共通之处,如风险分级管理、高风险项目的“备案”“评估”“透明”等原则,在我国相关法律法规中已有所体现,欧盟法案对我国立法工作具有重要参考意义。 2. 特殊领域监管方面: 算法推荐、深度合成、生成式人工智能是我国规制人工智能的具体领域。欧盟法案对这些领域的某些产品或服务有特殊回应,一定程度上印证了我国特别监管的必要性。 对于深度合成,欧盟法案强化了系统使用主体信息透明度的要求,与我国相关规定有一致性,但我国规定更全面,不过存在规定交叉重复适用的问题。 对于生成式人工智能,欧盟法案将其视为“基础模型”的一种类型,并规定了额外义务,我国相关规定在义务上更为全面。 3. 监管体系方面: 中国针对不同涉及算法的互联网信息服务,以落实主体责任为基本落脚点,将“服务提供者”作为相关义务的履行主体。 欧盟《人工智能法案》首先确立以风险为基准的人工智能治理框架,通过对人工智能系统进行评估划分风险层级,并匹配不同责任措施和差异化监管,进一步界定了各类主体的义务。
2024-12-31
结合欧盟《人工智能法案》和我国《生成式人工智能服务管理暂行办法》的对照,论述欧盟人工智能法案对我国在生成式人工智能方面立法的启示。
欧盟《人工智能法案》对我国在生成式人工智能方面立法的启示主要体现在以下几个方面: 1. 监管框架出发点:中国针对不同的涉及算法的互联网信息服务,以落实主体责任作为基本落脚点,将“服务提供者”作为相关义务的履行主体。而欧盟《人工智能法案》首先确立以风险为基准的人工智能治理框架,通过对人工智能系统进行评估,划分为不同风险层级,并匹配不同的责任措施和差异化监管。 2. 风险分类分级监管与算法安全评估:在我国,相关指导意见和法规已提出风险防控和算法分级分类安全管理的要求,以及对生成式人工智能服务的分类分级监管要求。欧美在这方面的路径和方法虽有争议,但总体上对我国仍具借鉴意义。
2024-12-31
如何构建一个AI数字人分身
构建一个 AI 数字人分身主要包括以下两个方面: 一、构建数字人躯壳 数字人的躯壳建模有多种方式: 1. 2D 引擎:风格偏向二次元,亲和力强,定制化成本低,在日本、东南亚等国家比较受欢迎,也深受年轻人喜欢。能将喜欢的动漫人物变成数字人的躯壳。代表是 Live2D Cubism。 2. 3D 引擎:风格偏向超写实的人物建模,拟真程度高,定制化成本高。目前有很多公司都在做这个方向的创业,已经可以实现用户通过手机摄像头快速创建一个自己的虚拟人身体。如 NextHuman、Unity,虚幻引擎 MetaHuman 等。但个人学习在电脑配置和学习难度上有一定门槛。 3. AIGC:虽然省去了建模流程,直接生成数字人的展示图片,但弊端也明显,算法生成的数字人很难保持 ID 一致性,帧与帧的连贯性上会让人有虚假的感觉。如果项目对人物模型真实度要求没有那么高,可以使用这种方案。典型的项目有 wav2lip等。AIGC 还有一个方向是直接生成 2d/3d 引擎的模型,而不是直接生成数字人的最终展示部分,但该方向还在探索中。 建好的模型可以使用 web 前端页面(Live2D 就提供了 web 端的 SDK)或者 Native 的可执行程序进行部署,最后呈现在用户面前的是一个 GUI。 二、构建数字人灵魂 有了数字人躯壳,还需要构建数字人的灵魂,让数字人具备各种智能,比如记得个人信息,充当个人助手;在某个领域具备更专业的知识;能处理复杂的任务等等。实现这些能力有以下几个工程关键点: 1. AI Agent:要想数字人像人一样思考就需要写一个像人一样的 Agent,工程实现所需的记忆模块,工作流模块、各种工具调用模块的构建都是挑战。 2. 驱动躯壳的实现:灵魂部分通过接口定义,躯壳部分通过 API 调用,调用方式可以是 HTTP、webSocket 等,视躯壳部分的实现而定。但包含情绪的语音表达以及如何保证躯壳的口型、表情、动作和语音的同步及匹配,目前主流方案只能做到预设一些表情动作,再做一些逻辑判断来播放预设,语音驱动口型相对来说成熟一些,但都是闭源的,效果可以参考 Nvidia 的 Audio2Face。 3. 实时性:由于整个数字人的算法部分组成庞大,几乎不能实现单机部署,特别是大模型部分,所以算法一般会部署到额外的集群或者调用提供出来的 API,这里面就会涉及到网络耗时和模型推理耗时,如果响应太慢就会体验很差,所以低延时也是亟需解决的一个问题。 4. 多元跨模态:仅仅是语音交互的数字人是远远不够的,人有五感(听觉、视觉、嗅觉、触觉、味觉),听觉只是其中一种,其他的感官可以根据实际需求来做,比如视觉可以通过添加摄像头数据来获取数据,再通过系列 CV 算法做图像解析等。 5. 拟人化场景:正常和人交流的时候不是线性对话,会有插话、转移话题等情况,这些情景需要通过工程丝滑处理。
2025-01-03
构建一个路由分类器AI,在工作流里面有什么好的设计方案,怎么能保证分类器进行分类准确呢
构建路由分类器 AI 的工作流设计方案如下: 1. 内容编排:在第四步中,将指令分为扩写、缩写、总结以及其他四类,设定最终的分类条件。分类器匹配到特定分支后执行相应操作,这种编排方式可过滤并避免处理不明确的指令,确保智能体准确响应用户指令。 2. 编写具体指令:为每个指令编写具体内容,如缩写、扩写和总结三个分支,创建包含变量(即用户初始输入的原始文本)的简单指令,用花括号引用变量,系统将值赋给变量并传递给模型推理形成提示词。 3. 最终输出:对各分支结果进行输出,输出内容相对简洁。 4. 测试流程:首先准备用于扩写、缩写和总结三项测试的文本素材,然后逐一进行各项测试,包括扩写测试、缩写测试、总结测试和错误处理测试,以验证每个分支能否顺利执行。 要保证分类器分类准确,可以从以下方面入手: 1. 清晰明确地设定分类条件,避免模糊和歧义。 2. 对输入的指令进行充分的预处理和规范化,使其符合分类器的预期格式。 3. 不断优化和调整分类器的参数和算法,以适应不同类型和复杂程度的指令。 4. 进行大量的测试和验证,收集错误案例并进行分析改进。
2024-12-29
如何构建自己的知识库和数据集
构建自己的知识库和数据集可以参考以下几种方法: 使用 Dify 构建知识库的具体步骤: 1. 准备数据:收集需要纳入知识库的文本数据,包括文档、表格等格式。对数据进行清洗、分段等预处理,确保数据质量。 2. 创建数据集:在 Dify 中创建一个新的数据集,并将准备好的文档上传至该数据集。为数据集编写良好的描述,描述清楚数据集包含的内容和特点。 3. 配置索引方式:Dify 提供了三种索引方式供选择,包括高质量模式、经济模式和 Q&A 分段模式。根据实际需求选择合适的索引方式,如需要更高准确度可选高质量模式。 4. 集成至应用:将创建好的数据集集成到 Dify 的对话型应用中,作为应用的上下文知识库使用。在应用设置中,可以配置数据集的使用方式,如是否允许跨数据集搜索等。 5. 持续优化:收集用户反馈,对知识库内容和索引方式进行持续优化和迭代。定期更新知识库,增加新的内容以保持知识库的时效性。 创建并使用知识库(上传表格数据): 1. API 方式: 获取在线 API 的 JSON 数据,将 JSON 数据上传至知识库。 在表格格式页签下,选择 API,然后单击下一步。 单击新增 API。 输入网址 URL 并选择数据的更新频率,然后单击下一步。 输入单元名称或使用自动添加的名称,然后单击下一步。 配置数据表信息后,单击下一步。 确认表结构:系统已默认获取了表头的列名,您可以自定义修改列名,或删除某一列名。 指定语义匹配字段:选择哪个字段作为搜索匹配的语义字段。在响应用户查询时,会将用户查询内容与该字段内容的内容进行比较,根据相似度进行匹配。 查看表结构和数据,确认无误后单击下一步。 完成上传后,单击确定。 2. 自定义方式: 在表格格式页面下,选择自定义,然后单击下一步。 输入单元名称。 在表结构区域添加字段,单击增加字段添加多个字段。 设置列名,并选择指定列字段作为搜索匹配的语义字段。在响应用户查询时,会将用户查询内容与该字段内容的内容进行比较,根据相似度进行匹配。 单击确定。 单击创建分段,然后在弹出的页面输入字段值,然后单击保存。 从零开始,用 GPT 打造个人知识库: 要搭建基于 GPT API 的定制化知识库,涉及到给 GPT 输入(投喂)定制化的知识。但 GPT3.5(当前免费版的 ChatGPT)一次交互(输入和输出)只支持最高 4096 个 Token,约等于 3000 个单词或 2300 个汉字。这点容量对于绝大多数领域知识根本不够。为了使用 GPT 的语言能力来处理大量的领域知识,OpenAI 提供了 embedding API 解决方案。embeddings 是一个浮点数字的向量(列表),两个向量之间的距离衡量它们的关联性。小距离表示高关联度,大距离表示低关联度。向量是数学中表示大小和方向的一个量,通常用一串数字表示。在计算机科学和数据科学中,向量通常用列表(list)来表示。向量之间的距离是一种度量两个向量相似性的方法,最常见的是欧几里得距离。在 OpenAI 词嵌入中,靠近向量的词语在语义上相似。文档上给了创建 embeddings 的示例,上面的命令访问 embeddings API 接口,将 input 语句,转化成下面这一串浮点数字。
2024-12-23
如何通过AI构建自己的知识体系,比如通识教育,英语口语,以及子女学习辅导
以下是关于如何通过 AI 构建自己在通识教育、英语口语、子女学习辅导方面知识体系的建议: 通识教育: 1. 把学习任务切割成小单元,利用 AI 构建专属智能体。 2. 定期根据结果反馈调整智能体。 3. 审视学习流程,更多地应用 AI 。 4. 培养并维持旺盛的好奇心和持续学习的习惯,广泛阅读,深入研究新领域,不断探索前沿知识。 英语口语: 1. 利用智能辅助工具,如 Grammarly 进行写作和语法纠错,改进表达和写作能力。 2. 借助语音识别应用,如 Call Annie 进行口语练习和发音纠正,获取实时反馈和建议。 3. 使用自适应学习平台,如 Duolingo 获得量身定制的学习计划和个性化内容练习。 4. 与智能对话机器人,如 ChatGPT 进行会话练习和对话模拟,提升交流能力和语感。 子女学习辅导: 1. 对于英语学习,可参考上述英语口语的学习方法。 2. 数学学习方面,使用自适应学习系统,如 Khan Academy 获得个性化学习路径和练习题;利用智能题库和作业辅助工具,如 Photomath 获取问题解答和解题步骤;借助虚拟教学助手,如 Socratic 解答问题、获取教学视频和答疑服务;参与交互式学习平台,如 Wolfram Alpha 的课程和实践项目进行数学建模和问题求解。 需要注意的是,在使用 AI 辅助学习的过程中,要结合传统学习方法,仔细甄别生成的内容,以取得更好的学习效果。
2024-12-22
现在有哪些给非设计师快速构建界面的ai工具
以下是一些可以帮助非设计师快速构建界面的 AI 工具: 1. Lucidchart:流行的在线绘图工具,支持多种视图创建,用户可通过拖放轻松创建架构图。 2. Visual Paradigm:全面的 UML 工具,提供多种架构视图创建功能。 3. ArchiMate:开源建模语言,与 Archi 工具配合可创建逻辑视图。 4. Enterprise Architect:强大的建模、设计和生成代码工具,支持多种视图创建。 5. Microsoft Visio:广泛使用的图表和矢量图形应用程序,有丰富模板用于创建视图。 6. draw.io(现称 diagrams.net):免费在线图表软件,支持创建逻辑和部署视图等。 7. PlantUML:文本到 UML 转换工具,可自动生成序列图等帮助创建逻辑视图。 8. Gliffy:基于云的绘图工具,提供创建各种架构图的功能。 9. Archi:免费开源工具,用于创建 ArchiMate 和 TOGAF 模型,支持逻辑视图创建。 10. Rational Rose:IBM 的 UML 工具,支持创建多种视图。 目前用于产品原型设计的 AIGC 工具包括: 1. UIzard:利用 AI 技术生成用户界面。 2. Figma:基于云的设计工具,提供自动布局和组件库,社区有 AI 插件。 3. Sketch:流行的矢量图形设计工具,插件系统中有利用 AI 技术辅助设计的插件。 在游戏中,从文本提示生成 2D 图像的工具如 Midjourney、Stable Diffusion 和 DallE 2 已广泛应用。生成性 AI 工具在概念艺术方面能帮助非艺术家快速探索概念和想法,一些工作室也尝试用其制作游戏内的生产艺术品。例如,可参考 Albert Bozesan 提供的使用 Stable Diffusion 创建游戏内 2D 资源的教程。
2024-12-19
怎么构建个人本地知识库
构建个人本地知识库可以按照以下步骤进行: 1. 了解 RAG 技术: 利用大模型的能力搭建知识库是 RAG 技术的应用。 大模型训练数据有截止日期,RAG 可解决依靠不在训练集中的数据的问题。 RAG 应用包括文档加载、文本分割、存储、检索和输出 5 个过程。 文档加载可从多种来源加载,如 PDF 等非结构化数据、SQL 等结构化数据和代码等。 文本分割将文档切分为指定大小的块。 存储涉及将文档块嵌入转换为向量形式并存储到向量数据库。 检索通过算法找到与输入问题相似的嵌入片。 输出是将问题和检索出的嵌入片提交给 LLM 生成答案。 文本加载器将用户提供的文本加载到内存以便后续处理。 2. 准备软件: 需要一个额外的软件 AnythingLLM,它包含所有 Open WebUI 的能力,并额外支持选择文本嵌入模型和向量数据库。 3. 安装和配置: 安装地址:https://useanything.com/download 。 安装完成后进入配置页面,主要分为三步:选择大模型、选择文本嵌入模型、选择向量数据库。 4. 构建本地知识库: 在 AnythingLLM 中创建自己独有的 Workspace 与其他项目数据隔离。 首先创建一个工作空间。 上传文档并在工作空间中进行文本嵌入。 选择对话模式,AnythingLLM 提供 Chat 模式(大模型根据训练数据和上传文档综合给出答案)和 Query 模式(大模型仅依靠文档中的数据给出答案)。 完成配置后进行测试对话。 本文的思路来源于视频号博主黄益贺,作者按照其视频进行了实操并附加了一些关于 RAG 的额外知识。
2024-12-19
长期记忆设计
关于长期记忆设计,主要包括基础设定和人物背景两方面。 基础设定方面,设计了一些初始属性,如人物生日和星座、MTBI 性格分型(ENFJ)、出生地、职业、聊天习惯等。 人物背景方面,使用 AI 自动扩写了大约 100 条,涵盖了三观、爱好、日常习惯、教育经历、家庭背景、工作经历、恋爱经历等内容。
2024-12-29
现在哪些ai具有记忆功能
以下是一些具有记忆功能的 AI: 1. MemGPT:通过特定指令访问外部存储系统来保存和回调信息,极大地扩展了模型的记忆能力,并增强了其上下文理解能力。 2. ChatGPT 最新版本:可以将对话中的重点内容记录在一个名为“bio”的小本子上,这种内置记忆机制使得它能够在后续对话中利用之前的交流内容来提供更加个性化和相关性更强的回答。 3. OpenAI 的 GPT4:直接用 prompt 调用 bio 这个工具记录需要记忆的内容,每次新的对话开始时,在 prompt 的最后直接加上所有之前的记录的内容。 延伸阅读:MemGPT:Towards LLMs as Operating Systems
2024-12-17
有没有什么辅助初中生学习整理知识点,并能记录错误,反复记忆的AI
目前市面上有一些可以辅助初中生学习整理知识点,并能记录错误、反复记忆的 AI 工具。例如一些智能学习类的 APP,它们可以根据学生的学习情况和错题记录,生成个性化的学习计划和复习资料。但具体的选择还需要根据学生的学科需求、学习习惯等因素来决定。
2024-12-07
(defun 生成记忆卡片 (单词) "生成单词记忆卡片的主函数" (let* ((词根 (分解词根 单词)) (联想 (mapcar #'词根联想 词根)) (故事 (创造生动故事 联想)) (视觉 (设计SVG卡片 单词 词根 故事))) (输出卡片 单词 词根 故事 视觉))) (defun 设计SVG卡片 (单词 词根 故事) "创建SVG记忆卡片" (design_rule "合理使用负空间,整体排版要有呼
以下是关于生成记忆卡片和 SVG 卡片的相关信息: 卡片类的应用被定义为词生卡片,如李继刚的《汉语新解》、一泽的《名片设计》、云中江树的《AI 简历》等,都是通过给大模型优化过的 Prompt,让其生成 HTML 代码或 SVG 代码,再通过浏览器渲染效果。 把提示词丢给 Claude ,如在 Poe 平台上的 Claude 模型,大概率会直接输出 SVG 代码,但对于子步骤是否执行等情况难以知晓。Andrej Karpathy 认为,模型需要 tokens 来思考,如果大语言模型未将思考过程外化,则几乎等于没思考。 甲木介绍了让 Claude 生成古诗词卡片的方法,流程包括输入 Prompt 、用户输入主题和风格,AI 输出最终结果。获取提示词已开源,创作过程主要是根据给定主题和方向生成匹配的中国古诗词,创建设计感强烈、富有中国传统美学的 SVG 卡片展示诗词,并提供相关信息,还支持根据用户提供的主题和方向生成对应语境的 prompt 并配图生成 SVGCard 。但对于“逼格高”的看法因人而异,可将选择权交给 AI 。
2024-11-28
哪一款 Ai 更适合,并有记忆功能,不需要每次都发历史文章。
目前大语言模型普遍没有记忆功能,每次发送消息都需要包含历史会话内容,否则无法记住之前的对话。会话累加过多时会超出最大上下文窗口长度,同时增加计算成本。为节省资源,AI 聊天应用会自动对历史会话进行摘要,仅保留最近内容。 不过,也有一些应用程序在这方面有所尝试和改进,例如 Rewind 是一款能够提高生产力的应用程序,可以浏览、搜索并询问关于手机上任何您看到的内容。它通过捕捉您在 Safari 中阅读的内容和导入您的截屏来工作,让您可以利用人工智能的力量向 Rewind 提问关于您看到的任何问题,包括为您进行总结。Lazy 也是一款不错的工具,上下文切换不会中断您的工作流程,能随时裁剪各种内容,保存文章等,音频和视频内容还会利用 AI 提取主要内容并展示。
2024-11-18
现在的大模型应用都没有记忆能力需要在每次调用时输入上下文?
目前的大模型应用本质上通常没有直接的记忆功能。以 ChatGPT 为例,它能理解用户的交流内容并非因为自身具备记忆能力,而是每次将之前的对话内容作为新的输入重新处理。这种记忆功能实际上是通过在别处进行存储来实现的。 对于大模型的工作原理,在回复时是一个字一个字地推理生成内容,会根据输入的上下文来推测下一个字。但大模型的学习数据规模庞大,若每次计算都带入全量数据,算力难以承受,且仅算字的概率容易受不相干信息干扰,词向量机制和 transformer 模型中的 attention 自注意力机制解决了这些难题。 另外,系统的内存是大模型的上下文窗口,如 Google Gemini 1.5 Pro 实验版已将其提升到一千万。但窗口越大推理越慢,且模型可能失焦降低准确度,研发团队需平衡吞吐量、速度和准确度。在模型外,操作系统的其他部件如文件系统能让模型具备无限记忆的能力,而大模型应用领域常用的方法如 RAG 能让模型用自定义数据生成结果,处理无尽的私有数据。
2024-10-08