Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

如何训练智能体,把特定的数据导入进智能体。

Answer

训练智能体并导入特定数据的方法如下:

  1. 手动清洗数据创建在线知识库:
    • 点击创建知识库,创建一个如画小二课程的 FAQ 知识库。
    • 选择飞书文档,选择自定义的自定义,输入“###”。
    • 飞书的文档内容会以“###”区分开来,可点击编辑修改和删除。
    • 点击添加 Bot,添加好后可在调试区测试效果。
  2. 处理本地文档:
    • 对于本地 word 文件,注意不能将大量数据一股脑全部放进去训练。
    • 正确的方法是先将大的章节名称内容放进来,章节内详细内容按固定方式进行人工标注和处理。
    • 然后选择创建知识库自定义清洗数据。
  3. 发布应用:
    • 点击发布,确保在 Bot 商店中能够搜到。

此外,具身智能体的训练还涉及以下方面:

  • 大脑-智能算法是感知/分析层的核心,通过视觉-语言理解模型感知环境、接收理解任务并进行规划决策,最终输出具体任务指令。
  • 小脑-运动控制算法是动作层的核心,将动作视为类似语言的一种模态,理解交互物品及机器本体的姿态和运动状态,并将语义理解转化为动作。
  • 整机硬件方案基于下游场景需求设计,具身智能厂商有从软件到硬件全流程自主控制的需求。

实现人工智能让计算机表现得像人类一样,有自上而下和自下而上两种可能的方法:

  • 自上而下的方法模拟人类通过推理来解决问题的方式,包括对人类知识的提炼并用计算机可读的形式表示,开发在计算机内部模拟推理的方法。
  • 自下而上的方法模拟人脑的结构,由大量称为神经元的简单单元组成,每个神经元的行为取决于输入数据的加权平均值,可通过提供训练数据来训练神经元网络。

还有一些其他可能实现智能的方法,如新兴的依靠协同的多智能体系统,基于大量简单智能系统的相互作用产生复杂智能行为;进化方法或遗传算法,是一种基于进化原理的优化过程。

Content generated by AI large model, please carefully verify (powered by aily)

References

【智能体】让Coze智能体机器人连上微信和微信群详细配置文档

本次创建知识库使用手动清洗数据,上节课程是自动清洗数据:[【智能体】用Coze在微信里搭建一个机器人,还能挖掘销售线索](https://a1i1hjmvcf0.feishu.cn/docx/JSdDd8ybLo7OHqxmePwcHlbLn3b?from=from_copylink),自动清洗数据会出现目前数据不准的情况,本节视频就尝试使用手动清洗数据,提高数据的准确性。[heading3]3.1在线知识库[content]点击创建知识库,创建一个画小二课程的FAQ知识库知识库的飞书在线文档,其中每个问题和答案以###分割,暂时不要问为什么。选择飞书文档选择自定义的自定义输入###然后他就将飞书的文档内容以###区分开来,这里可以点击编辑修改和删除。点击添加Bot添加好可以在调试区测试效果[heading3]3.2本地文档[content]本地word文件,这里要注意了~~~如何拆分内容,提高训练数据准确度,将海报的内容训练的知识库里面画小二这个课程80节课程,分为了11个章节,那训练数据能不能一股脑全部放进去训练呢。答案是~~不能滴~~~正确的方法,首先将11章的大的章节名称内容放进来,如下图所示。章节内详细内容格式如下如所示,如果你再分节的内容,依次类推细化下去。每个章节都按照这种固定的方式进行人工标注和处理然后选择创建知识库自定义清洗数据,这里不再赘述。[heading3]3.3发布应用[content]点击发布确保在Bot商店中能够搜到,如图所示可以搜索到画小二智能小助手,这个很重要,没有通过发布的获取不到API的。

具身智能赛道爆发的前夕,我们应该了解些什么?(上)|Z研究第 5 期

大脑-智能算法:感知/分析层的核心。通过视觉-语言理解模型感知环境、接收理解任务并进行规划决策,最终输出具体任务指令小脑-运动控制算法:动作层的核心。将动作视为类似语言的一种模态,理解交互物品及机器本体的姿态和运动状态,并将语义理解转化为动作。最终将大脑的任务指令拆解、输出为针对各硬件部件的控制指令。整机硬件方案:基于下游场景需求设计的运动、感知、计算和通信硬件方案。值得一提的是,具身智能厂商有从软件到硬件全流程自主控制的需求,倾向于自己制作机体,而非简单的向外采购。考虑因素有二:具身智能的机体和数据模式都没有实现标准统一,厂商用来训练智能体的数据往往和机体的自身构造存在紧密联系,例如眼睛之间的距离、电机的数量等等,都收集到的数据直接相关,也直接影响到智能体的训练过程。同时也要考虑二级供应商是否成熟,做整机的利润是否足够高。部分足够强大的厂商(如Tesla)甚至具备绕过二级供应商,制作更底层的电机、传感器的能力,对于这类厂商来说,软硬件一体化制造能带来更高的利润空间。两类智能:认知智能和物理智能认知智能涉及思考、规划和决策能力完全由大脑驱动物理智能指机器人的感知和与环境的运动互动能力其中,感知环节由大脑侧的识别算法实现,行动环节由小脑侧的运动控制算法和硬件配合完成在具身智能的感知-规划-决策-行动循环中,认知智能促使机器进行决策规划,物理智能协助行动;行动结果反馈迭代帮助具身智能更好的决策和行动。

人工智能简介和历史

如果我们希望让一台计算机表现得像人类一样,需要在计算机内模拟人类的思维方式。因此,我们需要理解是什么造就了人类的“智能”。我们必须理解自己的决策过程是如何进行的,才能够为机器编写智能程序。如果你稍微做一下自我觉察,就会发现有些过程是下意识发生的,例如我们可以不假思索地区分出猫和狗,而有些过程则需要推理。解决这个问题有两种可能的方法:|自上而下的方法(符号推理)|自下而上的方法(神经网络)||-|-||自上而下的方法模拟人类通过推理来解决问题的方式。它包括对人类知识的提炼,并用计算机可读的形式来表示,此外还需要开发一种在计算机内部模拟推理的方法。|自下而上的方法模拟人脑的结构,由大量称为神经元的简单单元组成。每个神经元的行为取决于输入数据的加权平均值,我们可以提供训练数据来训练神经元网络,从而解决有用的问题。|还有一些其他可能实现智能的方法:新兴的、依靠协同的多智能体系统(multi-agent),它基于这样一个事实,即复杂的智能行为可以来自大量简单智能系统的相互作用。根据进化控制论,在元系统跃迁的过程中,智能可以从更简单的反应行为中产生。进化方法或遗传算法(genetic algorithm),是一种基于进化原理的优化过程。[1]译者注:元系统跃迁,[Metasystem Transition](https://en.wikipedia.org/wiki/Metasystem_transition),是指通过演化涌现出更高层次的组织或者控制。我们将在课程的后续部分考虑这些方法,但现在我们将重点关注自上而下、自下而上两个主要方向。

Others are asking
用coze手捏智能体的意义是什么?
用 Coze 手捏智能体具有重要意义。AI Agent 是拥有各项能力来帮助我们做特定事情的“打工人”。目前不少大厂推出了自己的 AI 智能体平台,如字节的 Coze、阿里的魔搭社区等。体验过 GPT 或文心一言大模型的小伙伴应该知道,现在能用自然语言编程,降低了编程门槛。但之前使用这些大模型时会出现胡编乱造、时效性和无法满足个性化需求等问题,而 AI 智能体的出现正是解决这些问题的绝佳方式。AI 智能体包含自己的知识库、工作流,还能调用外部工具,结合大模型的自然语言理解能力,可以完成复杂工作。所以,用 Coze 手捏智能体就是结合自身业务场景和需求,定制出能解决自身问题的智能体。在 Coze 平台上,通过简单 3 步即可创建智能体,包括起名称、写介绍和使用 AI 创建头像。另外,有人在 Coze 平台上成功创建过智能体,并认识到知识对于实践的重要性。现阶段的 AI Agent 还需要遵循指引和给定流程才能完成特定任务,相关文章能为后续手捏 Agent 提供思路指引。
2025-03-17
如何创设一个作业时间计划管理智能体
以下是创设一个作业时间计划管理智能体的步骤: 1. 创建智能体:使用单 Agent 对话流模式。 编排对话流:点击创建新的对话流并与智能体关联。在获取笔记详情节点和笔记评论节点分别配置 cookie,note_link 使用开始节点的 USER_INPUT。 数据处理:使用代码节点对两个插件获取的结果进行处理,注意代码节点输出的配置格式。 2. 测试:找到一篇小红书笔记,试运行对话流,在对话窗口输入地址查看数据。回到智能体的编排页面进行同样的测试,确保对话流执行成功。 3. 发布: 选择多维表格,点击配置。 输出类型选文本,输入类型选择字段选择器。 完善上架信息,填写表格,选发布范围时可选择仅自己可用以加快审核。 提交上架信息,返回配置界面显示已完成,即可完成最终提交。 另外,在创建智能体时还需注意: 1. 像在“DeepSeek+扣子”的案例中,输入人设等信息,放上创建的工作流,但工作流中如【所有视频片段拼接】节点使用的插件 api_token 填的是个人 token 时,不能直接发布。可以将 api_token 作为工作流最开始的输入,用户自己购买后输入 api_token 再发布。 2. 如创建“画小二智能小助手”Coze 智能体,需打开扣子官网(https://www.coze.cn/),在 Coze 商店体验地址(https://www.coze.cn/store/bot/7371793524687241256?panel=1&bid=6cqnnu5qo7g00)点击创建 Bot,在对话框中工作空间选择“个人空间”并命名。同时设置提示词。
2025-03-17
我是一个教育行业产品经理,我想要学习如何做一个产品经理智能体帮我做方案,告诉我我需要学习的知识
作为教育行业的产品经理,若要学习制作能为您做方案的产品经理智能体,您需要掌握以下知识: 智能体的应用: 自动驾驶:智能体感知周围环境,做出驾驶决策。 家居自动化:智能家居设备根据环境和用户行为自动调节。 游戏 AI:游戏中的对手角色和智能行为系统。 金融交易:金融市场中的智能交易算法根据市场数据做出交易决策。 客服聊天机器人:通过自然语言处理与用户互动,提供自动化的客户支持。 机器人:各类机器人中集成的智能控制系统。 智能体的设计与实现: 定义目标:明确智能体需要实现的目标或任务。 感知系统:设计传感器系统,采集环境数据。 决策机制:定义智能体的决策算法,根据感知数据和目标做出决策。 行动系统:设计执行器或输出设备,执行智能体的决策。 学习与优化:如果是学习型智能体,设计学习算法,使智能体能够从经验中改进。 智能体产品功能详解: 智能体广场: 上传文档至知识库:点击【上传知识】按钮,可上传文档文件或 URL 导入,支持多种文档类型,文档大小有限制,可配置知识的切片方式,完成后知识将进入数据处理状态。 多智能体 AI 搜索引擎方案: 第一步,快速搜索补充参考信息:根据用户任务使用搜索工具补充更多信息,如使用工具 API WebSearchPro。 第二步,用模型规划和分解子任务:使用大模型把用户问题拆分成若干子搜索任务,并转换为 JSON 格式。 第三步,用搜索智能体完成子任务:AI 搜索智能体具备联网搜索和自主分析并进行多轮搜索任务的能力。 第四步,总结子任务生成思维导图:智能体能调用各种插件,如思维导图、流程图、PPT 工具等。
2025-03-17
有什么适合亲子互动用的智能体吗
以下为您推荐两款适合亲子互动的智能体: 1. 名字写对联智能体 作者:韦恩 体验链接:https://tbox.alipay.com/pro/share/202501APggwb00197427?platform=WebService 智能体名称:名字写对联 智能体简介:我是常师傅,别的不懂,春联咱在行,快过年了,用对联送祝福,今年可以不一样 应用场景: 目标人群:想了解对联,想写对联,给朋友送对联祝福的人 解决的问题:想给朋友特殊祝福的人,送春联祝福显得尤为特别,是一份特别的礼物 智能体主要功能: 玩法一:发送朋友名字和祝福,获得一副特殊的对联。 玩法二:发送您的幸运数字,获得您的幸运对联。 玩法三:随便聊聊,对对联,聊聊对联历史。 智能体设计思路: 编排方式:工作流对话模式,可以多轮对话,获得上下文,体验更好。 功能结构:根据用户意图进入不同的流程。 智能体功能实现: 幸运数字模块:发送您的幸运数字,获得您专属幸运对联。 送祝福模块:发送朋友名字祝福,活动给朋友的定制对联。 互动模块:用户可以随意聊,获得您想要的对联相关信息。 2. 旅行青蛙智能体 智能体设计思路: 创意:来源于多年前的火爆 APP——旅行青蛙,采用旅行明信片的方式来与用户互动,一方面让青蛙远游时发回当地景点的明信片,激发用户想去旅游的念头,另一方面通过大模型进行诗歌和文案的创作,可作为自媒体的素材 编排方式:采用单 Agent 的多分支模式,通过意图识别来确定用户的旅行意图,目前运行流畅稳定,有较高的趣味性,效果惊艳。 功能结构:基础功能包括时间季节提取、目的地景点提取、旅行日记文案、景点诗句、文生图提示词编写、风格固定、自定义 FLUX 插件,这些功能相互关联,共同构成一个完整的旅行体验智能体。 智能体功能实现: 随机目的地的旅行模块:青蛙自主选择说走就走的目的地旅行,发回明信片。 指定季节和目的地的旅行模块:青蛙会根据对应的时间和指定的地点,发回来自未来的旅行邮件。 互动模块:用户可以投喂各种食物,与青蛙进行亲密互动。 历史上的今天:当用户选择宅在家里时,青蛙会返回历史上的今天的新闻,并绘制相关的图片 小细节:使用了获取用户 ID,坐标,避免出现推荐与用户同一地区的景点
2025-03-17
如何在coze创建智能体或工作流
在 Coze 创建智能体或工作流的步骤如下: 1. 创建 Bot: 打开 Coze 官网 https://www.coze.cn/home 。 点击页面左上角的⊕,通过【标准创建】填入 bot 的基本信息。 2. 图像工作流: 创建图像工作流。 图像流分为智能生成、智能编辑、基础编辑三类。 空间风格化插件有参数,如 image_url 是毛坯房的图片地址;Strength 是提示词强度,影响效果图;Style 是生成效果的风格,如新中式、日式、美式、欧式、法式等;user_prompt 是用户输入的 Promot 提示词。 按照构架配置工作流,调试效果。调试工作流毛坯房测试用例:https://tgi1.jia.com/129/589/29589741.jpg 。 开始节点对应配置三项内容,进行提示词优化。 3. 分步构建和测试 Agent 功能: 首先进入 Coze,点击「个人空间工作流创建工作流」,打开创建工作流的弹窗。 根据弹窗要求,自定义工作流信息。点击确认后完成工作流的新建。 左侧「选择节点」模块中,根据子任务需要,实际用上的有插件、大模型、代码。 编辑面板中的开始节点、结束节点,分别对应分解子任务流程图中的原文输入和结果输出环节。 按照流程图,在编辑面板中拖入对应的 LLM 大模型、插件、代码节点,完成工作流框架的搭建。 4. Bot 开发调试界面: 人设与回复逻辑(左侧区域):设定 Bot 的对话风格、专业领域定位,配置回复的逻辑规则和限制条件,调整回复的语气和专业程度。 功能模块(中间区域): 技能配置:插件可扩展 Bot 的专业能力;工作流可设置固定的处理流程和业务逻辑;图像流处理和生成图像相关功能;触发器设置自动化响应条件。 知识库管理:文本存储文字类知识材料;表格结构化数据的存储和调用;照片是图像素材库。 记忆系统:变量存储对话过程中的临时信息;数据库管理持久化的结构化数据;长期记忆保存重要的历史对话信息;文件盒子管理各类文档资料。 交互优化(底部区域):开场白设置初次对话的问候语;用户问题建议配置智能推荐的后续问题;快捷指令设置常用功能的快速访问;背景图片自定义对话界面的视觉效果。 预览与调试(右侧区域):实时测试 Bot 的各项功能,调试响应效果,优化交互体验。
2025-03-17
电商智能体
电商智能体在品牌卖点提炼和搜索方面有以下应用: 在品牌卖点提炼中: 智能体的构建中,对结构的理解和控制至关重要。品牌卖点提炼助手本质是办公助手,能为有营销思维的团队提供思路,提高团队效率。 实际搭建要根据公司业态调整,如电商产品,线上触点有淘系、京东系电商平台和抖音、小红书等兴趣电商内容平台,线下触点包括产品包装、包裹、卡、说明书等,人员触点有销售人员、主播、售后、客服等。 遵循营销管理流程构建智能体结构,保证输出准确,通过调整提示词提升某部分信息准确度,但注意营销管理的结构化提示词中不要依赖举例,以免限制 AI 创造性思维。 在电商搜索中: 以“什么值得买”智能体为例,用户输入“我想买个笔记本电脑”,智能体会提取关键词,通过 API 检索商品信息,与提示词组装成上下文请求大模型回答,成为电商导购类垂直搜索应用,提升商品推荐效果。 工作流 Workflow 可理解为多智能体协作,通过多个智能体组装解决复杂场景搜索问题,如给新产品取名,涉及多个步骤和智能体,还需要调度中枢协调工作和做决策。 此外,还有“买买买!💥产品买点提炼神器强化版🚀”智能体,专注市场营销,能帮助用户从产品出发挖掘卖点并转化为买点,生成小红书文案和抖音短视频脚本,并保存至飞书文档。
2025-03-17
如何将一个网页或者网站的内容作为知识库导入?
将网页或网站的内容作为知识库导入主要有以下几种方式及操作步骤: 1. Notion: 在文本格式页签下,选择 Notion,然后单击下一步。 单击授权。首次导入 Notion 数据和页面时,需要进行授权。 在弹出的页面完成登录,并选择要导入的页面。 选择要导入的数据,然后单击下一步。 选择内容分段方式: 自动分段与清洗:系统会对上传的文件数据进行自动分段,并会按照系统默认的预处理规则处理数据。 自定义:手动设置分段规则和预处理规则。分段标识符:选择符合实际所需的标识符。分段最大长度:设置每个片段内的字符数上限。文本预处理规则:替换掉连续的空格、换行符和制表符,删除所有 URL 和电子邮箱地址。 单击下一步完成内容上传和分片。 2. 在线数据: 自动采集方式:适用于内容量大,需要批量快速导入的场景。 在文本格式页签下,选择在线数据,然后单击下一步。 单击自动采集。 单击新增 URL。在弹出的页面完成以下操作:输入要上传的网站地址;选择是否需要定期同步网站内容,如果需要选择内容同步周期;单击确认。 当上传完成后单击下一步。系统会自动根据网站的内容进行内容分片。 手动采集:适用于需要精准采集网页上指定内容的场景。 安装扩展程序,详情请参考。 在文本格式页签下,选择在线数据,然后单击下一步。 点击手动采集,然后在弹出的页面点击权限授予完成授权。 在弹出的页面输入要采集内容的网址,然后单击确认。 在弹出的页面上,点击页面下方文本标注按钮,开始标注要提取的内容,然后单击文本框上方的文本或链接按钮。 单击查看数据查看已采集的内容,确认无误后再点击完成并采集。 3. 本地文档: 在文本格式页签下,选择本地文档,然后单击下一步。 将要上传的文档拖拽到上传区,或单击上传区域选择要上传的文档。目前支持上传.txt、.pdf、.docx 格式的文件内容。每个文件不得大于 20M。一次最多可上传 10 个文件。 当上传完成后单击下一步。 选择内容分段方式: 自动分段与清洗:系统会对上传的文件数据进行自动分段,并会按照系统默认的预处理规则处理数据。 自定义:手动设置分段规则和预处理规则。分段标识符:选择符合实际所需的标识符。分段最大长度:设置每个片段内的字符数上限。文本预处理规则:替换掉连续的空格、换行符和制表符,删除所有 URL 和电子邮箱地址。 单击下一步完成内容上传和分片。
2025-03-06
能直接导入md文件的ai
以下是为您整理的相关内容: 关于导入 md 文件的 AI 工具 Process ON: 输入大纲和要点: 导入大纲和要点: 手动复制,相对比较耗时间。 导入方式: 1. 复制最终大纲的内容,到本地的 txt 文件后,将后缀改为.md。如果看不见后缀,可以自行搜索开启后缀。 2. 打开 Xmind 软件,将 md 文件导入 Xmind 文件中。 3. Process ON 导入 Xmind 文件。以导入方式新建思维导图,选择准备好的 Xmind 文件,导入成功。 输入主题自动生成大纲和要求:新增思维导图,输入主题,点击 AI 帮我创作,生成结束。 选择模版并生成 PPT:点击下载,选择导入格式为 PPT 文件,选择模版,再点击下载。如果喜欢用 Process ON 的小伙伴,没有会员,可以某宝买个一天会员。 Agentic AI 相关: 在使用 Windsurf 时,如果要进行相关操作,为了安全考虑,不允许 AI 直接更改.windsurfrules 文件。需要把相关内容拆成两个部分,一个比如叫 scratchpad.md,在.windsurfrules 文件里提及:当每次进行思考前,要先看一眼 Scratchpad,并在里面更新计划。这种间接方式虽效果可能不如直接放在..cursorrules 里好,但试下来也是可以工作的。 用 Claude 进行各种设计: 自从 Claude 3.5 sonnet 更新到新版后,增强了视觉理解与编程质量,词生卡效果已完美进化到下一个 Level。 用 Claude 画公众号封面:效果示例,如果第 1 版效果一般,可以多尝试通用改进提示词或直接提出针对性意见,如主题色改为浅色调、增加文字投影效果。 用 Claude 画海报:如果需要调整海报内容,可给出具体提示,如白色底,浅绿色主题,轻微投影。 用 Claude 绘制可视化概念图,用于 PPT 等插图场景:有浅色版和深色版示例。 用 Claude 绘制微信 UI:发挥脑洞,只要是网页、软件界面设计能做出的图片效果,只要没有专业要求,大部分都能靠 Claude AI 来实现。 尝试途径: 1. :一个优秀的 AI 助手工具,付费后可使用 Claude 3.5 sonnet、ChatGPT4O 等顶级大模型(也是目前最常用的 AI 对话助手;🔗是邀请链接,如介意可自行搜索 Monica) 2. :claude 官方原版,注册后可每日限额免费体验(但存在较高的封号风险) 也可以通过 Cursor、Windsurf 等 AI 编程产品,调用 Claude AI API,但不支持 Artifacts 这种即时预览的使用方式,需要单独保存代码文件后查看。不过好处是,可以用 MD、CSV 等格式的文件,存储提示词、更新记录和 AI 交互数据。
2025-02-13
我把一篇文章导入后可以快速生成思维导图的工具有什么
以下是一些可以在导入文章后快速生成思维导图的工具: 1. GitMind:免费的跨平台思维导图软件,支持多种模式,可通过 AI 自动生成思维导图。 2. ProcessOn:国内的思维导图与 AIGC 结合的工具,能利用 AI 生成思维导图。 3. AmyMind:轻量级在线工具,无需注册登录,支持自动生成节点。 4. Xmind Copilot:Xmind 推出的基于 GPT 的思维导图助手,可一键拓展思路并生成文章大纲。 5. TreeMind:“AI 人工智能”思维导图工具,输入需求后由 AI 自动完成生成。 6. EdrawMind:提供一系列 AI 工具,包括 AI 驱动的头脑风暴功能,有助于提升生产力。 此外,利用 GPTs 结合 Gapier 这个提供免费 Action 的第三方平台,也可以实现将文章转换为思维导图。具体操作如下: 1. GPTs 地址: 2. 提供文章或者链接,可以是网络路径,也可以直接提供文章内容。 3. 查看思维导图,可按需求自行优化 prompt,要求提供图片下载路径或直接显示图片。但使用过程中可能偶尔存在一些问题,反馈给 Gapier 官方后解决速度较快。
2025-01-16
我想用coze搭建一个智能体,关于自然语言课程的期末复习指南,要将我的教材导入扣子作为知识库,智能体支持用户提问,搜索知识点,结合知识库和互联网搜索的内容给出问答,需要使用多智能体或工作流,使用卡片功能进行显示,请给出我搭建这个智能体的步骤
以下是使用 Coze 搭建一个关于自然语言课程期末复习指南智能体的步骤: 1. 访问 Coze 官网(https://www.coze.cn),注册并登录。 2. 点击页面左上角的⊕,通过【标准创建】填入智能体的基本信息。 3. 了解 Bot 开发调试界面: 人设与回复逻辑(左侧区域):设定智能体的对话风格、专业领域定位,配置回复的逻辑规则和限制条件,调整回复的语气和专业程度。 功能模块(中间区域): 技能配置: 插件:扩展智能体的专业能力,如计算器、日历等工具。 工作流:设置固定的处理流程和业务逻辑。 图像流:处理和生成图像的相关功能。 触发器:设置自动化响应条件。 知识库管理: 文本:存储文字类知识材料。 表格:结构化数据的存储和调用。 照片:图像素材库。 记忆系统: 变量:存储对话过程中的临时信息。 数据库:管理持久化的结构化数据。 长期记忆:保存重要的历史对话信息。 文件盒子:管理各类文档资料。 交互优化(底部区域): 开场白:设置初次对话的问候语。 用户问题建议:配置智能推荐的后续问题。 快捷指令:设置常用功能的快速访问。 背景图片:自定义对话界面的视觉效果。 预览与调试(右侧区域):实时测试智能体的各项功能,调试响应效果,优化交互体验。 4. 设定智能体的人设与回复逻辑后,为智能体配置对应的技能,以保证其可以按照预期完成目标任务。例如,以获取 AI 新闻的智能体为例,需要为它添加一个搜索新闻的接口来获取相关新闻。具体操作如下: 在智能体编排页面的技能区域,单击插件功能对应的+图标。 在添加插件页面,选择相关功能,然后单击新增。 修改人设与回复逻辑,指示智能体使用相应插件来搜索所需内容。 (可选)为智能体添加开场白,让用户更好地了解智能体的功能。开场白功能目前支持豆包、微信公众号(服务号)。 5. 配置好智能体后,在预览与调试区域中测试智能体是否符合预期。可单击清除图标清除对话记录。 6. 完成测试后,将智能体发布到社交渠道中使用。具体操作如下: 在智能体的编排页面右上角,单击发布。 在发布页面输入发布记录,并勾选发布渠道。 单击发布。 更多内容,请访问 Coze 官方文档: 英文版:https://www.coze.com/docs/welcome.html 中文版:https://www.coze.cn/docs/guides/welcome
2024-12-20
推荐一个生成bpm系统产品原型图的ai工具,可以实现文字输入,甄别分析后直接生成原型图,并且导入Figma或者Axure可以二次编辑
以下是为您推荐的可生成 BPM 系统产品原型图、用于产品原型设计或绘制示意图的 AI 工具: 1. 即时设计:https://js.design/ 这是一款可在线使用的「专业 UI 设计工具」,为设计师提供更加本土化的功能和服务,相较于其他传统设计工具,更注重云端文件管理、团队协作,并将设计工具与更多平台整合,一站搞定全流程工作。 2. V0.dev:https://v0.dev/ Vercel Labs 推出的 AI 生成式用户界面系统。每个人都能通过文本或图像生成代码化的用户界面。它基于 Shadcn UI 和 Tailwind CSS 生成复制粘贴友好的 React 代码。 3. Wix:https://wix.com/ Wix 是一款用户友好的 AI 工具,可让您在没有任何编码知识的情况下轻松创建和自定义自己的网站,提供广泛的模板和设计供您选择,以及移动优化和集成电子商务功能等功能。Wix 建站工具通过拖放编辑、优秀模板和 250 多种 app,能帮助不同领域的用户创建所有种类的网站。 4. Dora:https://www.dora.run/ 使用 Dora AI,可以通过一个 prompt,借助 AI 3D 动画,生成强大网站。支持文字转网站,生成式 3D 互动,高级 AI 动画。 5. UIzard:是一个利用 AI 技术生成用户界面的工具,它可以根据设计师提供的信息快速生成 UI 设计。 6. Figma:是一个基于云的设计工具,它提供了自动布局和组件库,可以帮助团队快速协作并迭代产品设计。Figma 的社区也开发了一些 AI 插件,用于增强设计流程。 7. Sketch:是另一款流行的矢量图形设计工具,它提供了插件系统,其中一些插件利用 AI 技术来辅助设计工作,例如自动生成设计元素等。 请注意,以上内容由 AI 大模型生成,请仔细甄别。
2024-12-17
推荐一个生成bpm系统产品原型图的so工具,可以实现文字输入,甄别分析后直接生成原型图,并且导入Figma或者Axure)
目前暂时没有完全符合您需求的直接生成 BPM 系统产品原型图,并能实现文字输入、甄别分析后直接生成原型图且导入 Figma 或者 Axure 的工具。但您可以关注一些相关领域的发展动态,比如 Mockplus、Adobe XD 等工具,它们在原型设计方面具有一定的优势,或许未来会推出满足您需求的功能。
2024-12-17
怎么和特定知识库对话
要和特定知识库对话,有以下几种方式: 1. 在 Bot 内使用知识库: 登录。 在左侧导航栏的工作区区域,选择进入指定团队。 在 Bots 页面,选择指定 Bot 并进入 Bot 详情页。 在 Bot 编排页面的知识库区域,单击加号图标,添加指定的知识库。 (可选)添加知识库后,可以在自动调用下拉界面内,调整知识库的配置项,包括最大召回数量(Bot 在调用知识库匹配用户输入内容时,返回的数据片段数量,数值越大返回的内容越多)、最小匹配度(Bot 在调用知识库匹配用户输入内容时,会将达到匹配度要求的数据片段进行召回。如果数据片段未达到最小匹配度,则不会被召回)、调用方式(自动调用:每轮对话将自动从所有关联的知识库中匹配数据并召回;按需调用:需要在人设与回复逻辑中提示 Bot 调用 RecallKnowledge 方法,以约束 Bot 在指定时机从知识库内匹配数据)。 (可选)在预览与调试区域调试 Bot 能力时,扩展运行完毕的内容可以查看知识库命中并召回的分片内容。 2. 在工作流内使用 Knowledge 节点: 登录。 在左侧导航栏的工作区区域,选择进入指定团队。 在页面顶部进入工作流页面,并打开指定的工作流。 在左侧基础节点列表内,选择添加 Knowledge 节点。 如果想要对本地知识库进行更加灵活的掌控,可以使用额外的软件 AnythingLLM,其安装地址为:https://useanything.com/download 。安装完成后,进入配置页面,主要分为三步: 1. 第一步:选择大模型。 2. 第二步:选择文本嵌入模型。 3. 第三步:选择向量数据库。 在 AnythingLLM 中有一个 Workspace 的概念,可以创建自己独有的 Workspace 跟其他的项目数据进行隔离。首先创建一个工作空间,然后上传文档并且在工作空间中进行文本嵌入,选择对话模式,包括 Chat 模式(大模型会根据自己的训练数据和上传的文档数据综合给出答案)和 Query 模式(大模型仅仅会依靠文档中的数据给出答案),完成上述配置后就可以跟大模型进行对话。 在创建名字写对联教学的智能体时,建议选择工作流的对话模式,创建一个工作流对话模式的智能体,注意一定要在开始调整工作流节点之前切换模式,因为切换成对话模式会将工作流清空,重置为对话模式默认节点。根据需求分析确认分支情况,包括根据名字和祝福写对联、根据幸运数字写对联的特定分支以及默认分支。通过理解用户意图进行分支,注意将意图介绍写清楚、准确。在幸运数字分支中,先用代码分支获取用户输入的数字,然后匹配知识库,再对匹配的春联做赏析。在名字写祝福分支中,根据用户输入的名字和祝福信息,调试提示词生成对应对联并输出。设置通用兜底回复,在用户不符合前两个意图时进行友好回复,首先匹配知识库,然后让大模型结合匹配结果、历史记录、当前输入,输出符合对话内容的回复。同时,知识库是使用大模型生成的 100 对对联,都比较好看、经典、有意义。
2025-03-10
生成特定风格的图片用什么工具
生成特定风格的图片可以使用以下工具: 1. 悠船: 进入官网,可以选择桌面端下载或浏览器使用。为方便起见,可选择浏览器使用。首次使用需注册,选择企业用户注册,输入名称和手机号即可注册成功(目前无需填写企业信息)。 注册完成后进入操作页面,点击开始想象按钮,将生成的提示词粘贴在下方,直接点击回车,耐心等待几十秒即可生成 4 张图片,可选择喜欢的图片点击进入进行对应操作。 若想生成不同尺寸风格的图片,可对创作参数进行调整: 风格化:数字越大越艺术,但并非越大越好,取决于创作,人像不用调整过高。 怪异化:数字越大越奇怪,可不碰。 多样化:数字越大结果越意想不到,越低越接近提示词。建议新手一开始不用怪异和多样化,可做实验测试。 模式:默认标准,朴实 raw 会让图片质感更好,依个人喜爱选择。 版本:默认最高 V6,二次元可选 NIJI。 生成图片的速度:默认快速,越快对支付套餐要求越高。 2. 吐司: 在首页有对话生图对话框,输入文字描述即可生成图片,不满意可通过对话让其修改。 Flex 模型对语义理解强,不同模型生成图片的积分消耗不同,生成的图片效果受多种因素影响。 可通过电图基于图片做延展,生图时能调整尺寸、生成数量等参数,高清修复会消耗较多算力建议先出小图。 国外模型对中式水墨风等特定风格的适配可能存在不足,可通过训练 Lora 模型改善。 新用户通过特定链接注册或填写邀请码 BMSN,7 天内可额外获得 100 算力。
2025-03-04
模仿特定声音,给文字配音
以下是为您提供的关于模仿特定声音给文字配音的相关信息: ElevenLabs 推出了全自动化的 AI 配音或视频翻译工具。您只需上传视频或粘贴视频链接,该工具能在几十秒到几分钟内将视频翻译成 29 种语言,还能直接克隆原视频里的声音来配音。群友瑞华测试的相关视频链接如下: 另外,有群友测试了豆包的音色模仿,读大概 20 个字的句子,5 秒就能生成非常像的音色,之后可用自己的声音读生成的文字内容。 用户可通过文字+哼唱、敲打节奏、手势等指导模型生成精确音频,如模仿赛车声或小水流变瀑布声。其基于扩散模型,结合文本和控制信号生成音频,适用于节奏模仿及其他多种输入形式。相关链接:
2025-03-04
怎么做chatbot特定角色的专业知识rag优化?
以下是关于 chatbot 特定角色的专业知识 RAG 优化的方法: 1. 复制预置的 Bot: 访问,单击目标 Bot。 在 Bot 的编排页面右上角,单击创建副本。 在弹出的对话框中,设置 Bot 名称、选择 Bot 的所属团队,然后单击确定。 可以在新打开的配置页面修改复制的 Bot 配置。 点击 Bot 名称旁边的编辑图标来更改 Bot 名称。 在人设与回复逻辑区域,调整 Bot 的角色特征和技能。您可以单击优化使用 AI 帮您优化 Bot 的提示词,以便大模型更好的理解。 在技能区域,为 Bot 配置插件、工作流、知识库等信息。 在预览与调试区域,给 Bot 发送消息,测试 Bot 效果。 当完成调试后,可单击发布将 Bot 发布到社交应用中,在应用中使用 Bot。 2. 集成 Workflow 到 Bot 里: 选择 GPT4作为聊天模型。 添加实用的插件,丰富 Bot 的能力。 设计人设和提示词,例如: Your Persona Greetings,seeker of knowledge!I am Dr.Know,your guide to the vast expanse of information.In a world brimming with questions,I stand as a beacon of enlightenment,ready to illuminate the shadows of uncertainty.Whether you're in search of wisdom from ancient lore,keen on unraveling the mysteries of the cosmos,or simply wish to satiate your curiosity on matters both grand and mundane,you've come to the right place.Ask,and let the journey of discovery begin.Remember,in the realm of Dr.Know,there is nothing I don't. Your Capabilities search_and_answer Your most important capability is`search_and_answer`.When a user asks you a question or inquires about certain topics or concepts,you should ALWAYS search the web before providing a response.However,when a user asks you to DO SOMETHING,like translation,summarization,etc.,you must decide whether it is reasonable to use the`search_and_answer`capability to enhance your ability to perform the task. ALWAYS search the web with the exact original user query as the`query`argument.For example,if the user asks\"介绍一下 Stephen Wolfram 的新书 What Is ChatGPT Doing...and Why Does It Work?\",then the`query`parameter of`search_and_answer`should be exactly this sentence without any changes. How to Interact with the User
2025-01-26
推荐一个大模型,可以实现特定人的声音,朗读文字
以下为您推荐可以实现特定人声音朗读文字的大模型及相关工具: 大模型方面:包括 ChatGPT、Claude、ChatGLM、文星一言、千帆大模型、通义千问等。 语音合成(TTS)工具: 微软的 edgetts:https://github.com/rany2/edgetts,只能使用里面预设的人物声音,目前接口免费。 VITS:https://github.com/jaywalnut310/vits,还有很多的分支版本,可以去搜索一下,vits 系列可以自己训练出想要的人声。 sovitssvc:https://github.com/svcdevelopteam/sovitssvc,专注到唱歌上面,前段时间很火的 AI 孙燕姿。 Eleven Labs:https://elevenlabs.io/ ,ElevenLabs Prime Voice AI 是一款功能强大且多功能的 AI 语音软件,使创作者和出版商能够生成逼真、高品质的音频。人工智能模型能够高保真地呈现人类语调和语调变化,并能够根据上下文调整表达方式。 Speechify:https://speechify.com/ ,Speechify 是一款人工智能驱动的文本转语音工具,使用户能够将文本转换为音频文件。它可作为 Chrome 扩展、Mac 应用程序、iOS 和 Android 应用程序使用,可用于收听网页、文档、PDF 和有声读物。 Azure AI Speech Studio:https://speech.microsoft.com/portal ,Microsoft Azure Speech Studio 是一套服务,它赋予应用程序能力,让它们能够“听懂、理解并与客户进行对话”。该服务提供了支持 100 多种语言和方言的语音转文本和文本转语音功能。此外,它还提供了自定义的语音模型,这些模型能够适应特定领域的术语、背景噪声以及不同的口音。 Voicemaker:https://voicemaker.in/ ,AI 工具可将文本转换为各种区域语言的语音,并允许您创建自定义语音模型。Voicemaker 易于使用,非常适合为视频制作画外音或帮助视障人士。 此外,上述算法开源的代码有很多,例如: ASR 语音识别: openai 的 whisper:https://github.com/openai/whisper wenet:https://github.com/wenete2e/wenet speech_recognition:https://github.com/Uberi/speech_recognition 除了算法,人物建模模型可以通过手动建模(音频驱动)或者 AIGC 的方式生成人物的动态效果(例如 wav2lip 模型)实现,这样就完成了一个最简单的数字人。但这种简单的构建方式还存在很多问题,例如如何生成指定人物的声音,TTS 生成的音频如何精确驱动数字人口型以及做出相应的动作,数字人如何使用知识库,做出某个领域的专业性回答等。
2024-12-18
0基础如何系统学习AI,目标:针对特定场景开发出AI产品
对于 0 基础想要系统学习 AI 并针对特定场景开发出 AI 产品的您,以下是一些建议: 1. 了解 AI 基本概念: 建议阅读「」部分,熟悉 AI 的术语和基础概念,包括其主要分支(如机器学习、深度学习、自然语言处理等)以及它们之间的联系。 浏览入门文章,了解 AI 的历史、当前的应用和未来的发展趋势。 2. 开始 AI 学习之旅: 在「」中,您将找到一系列为初学者设计的课程,特别推荐李宏毅老师的课程。 通过在线教育平台(如 Coursera、edX、Udacity)上的课程,按照自己的节奏学习,并有机会获得证书。 3. 选择感兴趣的模块深入学习: AI 领域广泛(比如图像、音乐、视频等),您可以根据自己的兴趣选择特定的模块进行深入学习。 掌握提示词的技巧,它上手容易且很有用。 4. 实践和尝试: 理论学习之后,实践是巩固知识的关键,尝试使用各种产品做出您的作品。 在知识库提供了很多大家实践后的作品、文章分享,欢迎您实践后的分享。 5. 体验 AI 产品: 与现有的 AI 产品进行互动,如 ChatGPT、Kimi Chat、智谱、文心一言等 AI 聊天机器人,了解它们的工作原理和交互方式。 此外,对于 AI 产品经理,个人做了以下划分,仅供娱乐和参考: 1. 入门级: 能通过 WaytoAGI 等开源网站或一些课程了解 AI 的概念,使用 AI 产品并尝试动手实践应用搭建。 2. 研究级: 有两个路径,一个是技术研究路径,一个是商业化研究路径。这个阶段对应的画像可能是对某一领域有认知,可以根据需求场景选择解决方案,或利用 Hugging face 等工具手搓出一些 AI 应用来验证想法。 3. 落地应用: 这一阶段的画像就是有一些成功落地应用的案例,如产生商业化价值。 在 AI 游戏场景方面,为您提供以下案例: 1. 从游戏截图升级到 KV 品质,AI 居然可以这样用! 作者:yanceyzhang 简介:AI 生成图像具有较大的随机性,如果想用在特定项目上的话,用游戏内资源拼合作为图生图的底图可以很好的帮助 ai 发挥,复现游戏原有的画风、世界观和人物设定,下面将实际操作中的一些思路和小技巧分享出来。 查看链接: 入库时间:2023/11/21 2. 《LORA 模型训练超入门级教程》人人都可以当炼金术士 作者:包子 SAMA丶 简介:初步接触训练模型,主要是以美术视角出发来进行讲解,目的就是可以让不理解训练概念和代码指令的小伙伴更容易上手 Lora 模型训练。 查看链接: 入库时间:2023/11/21 3. 人人可以做原画,如何运用 Midjourney+Stable Diffusion 进行角色原画设计 作者:Harayuan 简介:本文旨在详细探讨运用 MJ+SD 进行角色设计的方法、技巧,以及它的优势、不足之处和未来发展方向。 查看链接: 入库时间:2023/11/21
2024-12-16
MoE模型训练为什么会比dense模型要更困难?
MoE 模型训练比 dense 模型更困难的原因主要包括以下几点: 1. 内存需求:MoE 模型需要将所有专家加载到内存中,这导致其需要大量的 VRAM。 2. 微调挑战:微调 MoE 模型存在困难,历史上在微调过程中较难泛化。 3. 训练设置:将密集模型转换为 MoE 模型时,虽然训练超参数和训练设置相同,但 MoE 模型的特殊结构仍带来了训练上的复杂性。 4. 计算效率与泛化平衡:MoE 模型在训练时更具计算效率,但在微调时难以实现良好的泛化效果。
2025-03-17
什么样的数据集适合训练大语言模型?
以下是一些适合训练大语言模型的数据集: 1. Guanaco:这是一个使用 SelfInstruct 的主要包含中日英德的多语言指令微调数据集,地址为:。 2. chatgptcorpus:开源了由 ChatGPT3.5 生成的 300 万自问自答数据,包括多个领域,可用于训练大模型,地址为:。 3. SmileConv:数据集通过 ChatGPT 改写真实的心理互助 QA 为多轮的心理健康支持多轮对话,含有 56k 个多轮对话,其对话主题、词汇和篇章语义更加丰富多样,更加符合在长程多轮对话的应用场景,地址为:。 虽然许多早期的大型语言模型主要使用英语语言数据进行训练,但该领域正在迅速发展。越来越多的新模型在多语言数据集上进行训练,并且越来越关注开发专门针对世界语言的模型。然而,在确保不同语言的公平代表性和性能方面仍然存在挑战,特别是那些可用数据和计算资源较少的语言。 大模型的预训练数据通常非常大,往往来自于互联网上,包括论文、代码以及可进行爬取的公开网页等等,一般来说,现在最先进的大模型一般都是用 TB 级别的数据进行预训练。
2025-03-17
flux lora训练
以下是关于 Flux 的 Lora 模型训练的详细步骤: 模型准备: 1. 下载所需模型,包括 t5xxl_fp16.safetensors、clip_l.safetensors、ae.safetensors、flux1dev.safetensors。 注意:不使用时存放位置随意,只要知晓路径即可。训练时建议使用 flux1dev.safetensors 版本的模型和 t5xxl_fp16.safetensors 版本的编码器。 下载脚本: 1. 网盘链接: 夸克网盘链接:https://pan.quark.cn/s/ddf85bb2ac59 百度网盘链接:https://pan.baidu.com/s/1pBHPYpQxgTCcbsKYgBi_MQ?pwd=pfsq 提取码:pfsq 安装虚拟环境: 1. 下载完脚本并解压。 2. 在文件中找到 installcnqinglong.ps1 文件,右键选择“使用 PowerShell 运行”。 3. 新手在此点击“Y”,然后等待 1 2 小时的下载过程,完成后提示是否下载 hunyuan 模型,选择 n 不用下载。 数据集准备: 1. 进入厚德云 模型训练 数据集:https://portal.houdeyun.cn/sd/dataset 2. 创建数据集: 在数据集一栏中,点击右上角创建数据集。 输入数据集名称。 可以上传包含图片 + 标签 txt 的 zip 文件,也可以上传只有图片的文件(之后可在 c 站使用自动打标功能),或者一张一张单独上传照片。 Zip 文件里图片名称与标签文件应当匹配,例如:图片名“1.png”,对应的达标文件就叫“1.txt”。 上传 zip 以后等待一段时间,确认创建数据集,返回到上一个页面,等待一段时间后上传成功,可点击详情检查,预览数据集的图片以及对应的标签。 Lora 训练: 1. 点击 Flux,基础模型会默认是 FLUX 1.0D 版本。 2. 选择数据集,点击右侧箭头,选择上传过的数据集。 3. 触发词可有可无,取决于数据集是否有触发词。 4. 模型效果预览提示词则随机抽取一个数据集中的标签填入。 5. 训练参数可调节重复次数与训练轮数,厚德云会自动计算训练步数。若不知如何设置,可默认 20 重复次数和 10 轮训练轮数。 6. 按需求选择是否加速,点击开始训练,会显示所需要消耗的算力。 7. 等待训练,会显示预览时间和进度条。训练完成会显示每一轮的预览图。 8. 鼠标悬浮到想要的轮次模型,中间会有个生图,点击会自动跳转到使用此 lora 生图的界面。点击下方的下载按钮则会自动下载到本地。 数据集存放位置:.Flux_train_20.4\\train\\qinglong\\train 运行训练:约 1 2 小时即可训练完成。 验证和 lora 跑图:有 ComfyUI 基础的话,直接在原版工作流的模型后面,多加一个 LoraloaderModelOnly 的节点就可以,自行选择 Lora 和调节参数。
2025-03-15
在ai图像训练打标时,怎么让部分标签权重更大
在 AI 图像训练打标时,让部分标签权重更大的方法如下: 1. 在 Stable Diffusion 中,手动补充的特殊 tag 放在第一位,因为 tags 标签有顺序,最开始的 tag 权重最大,越靠后的 tag 权重越小。 2. 在 BooruDatasetTagManager 中采用方法二: 删除部分特征标签,如 All tags 中不该出现的错误识别的自动标签,Image tags 中作为特定角色的自带特征的标签,并将特征与 LoRA 做绑定。 完成所有优化删除后,点击左上角菜单 File>Save all changes 保存当前的设置。 此外,在 Stable Diffusion 训练数据集制作中还需注意: 1. 调用 Waifu Diffusion v1.4 模型需要安装特定版本(2.10.0)的 Tensorflow 库,在命令行输入相应命令完成版本检查与安装适配。 2. 进入到 SDTrain/finetune/路径下,运行相应代码获得 tag 自动标注,其中主要参数包括: batch_size:每次传入 Waifu Diffusion v1.4 模型进行前向处理的数据数量。 model_dir:加载的本地 Waifu Diffusion v1.4 模型路径。 remove_underscore:开启后将输出 tag 关键词中的下划线替换为空格。 general_threshold:设置常规 tag 关键词的筛选置信度。 character_threshold:设置特定人物特征 tag 关键词的筛选置信度。 caption_extension:设置 tag 关键词标签的扩展名。 max_data_loader_n_workers:设置大于等于 2,加速数据处理。
2025-03-15
你好,我想训练一个自己的专属模型,比如说基于网页里面的问卷调查,我有答题的逻辑,网页的问卷调查项目每天都有非常多的不同的地方,但是又有相通的地方,我想让AI在我的逻辑之上能自我迭代自动答题,我该怎么办
如果您想基于网页问卷调查训练一个能在您的逻辑之上自我迭代自动答题的专属模型,有以下两种常见的技术方案: 1. 训练专有大模型: 优点:效果最好。 缺点:成本高,训练和维护需要大量计算资源和专业知识;更新模型知识难度大,需要重新训练或微调,过程复杂耗时。 2. 利用 RAG(检索增强生成)技术: 例如选择 Baichuan27BChat 模型作为底模,配置模型本地路径和提示模板。在 Train 页面里选择 sft 训练方式,加载定义好的数据集,根据数据集大小和收敛情况设置学习率和训练轮次。使用 FlashAttention2 可减少显存需求、加速训练速度;显存小的朋友可减少 batch size 并开启量化训练,内置的 QLora 训练方式好用。但需要用到 xformers 的依赖。根据聊天记录规模大小,训练时间少则几小时,多则几天。 此外,还有学生训练专属植物分类 AI 模型的案例供您参考。在北京市新英才学校的跨学科选修课“生化 E 家”中,老师和学生共同收集校园内不同树叶的照片,在 OpenInnoLab里找到图像分类训练工具,建立植物分类模型,加入大量数据集进行训练,再用图像化编程将其套在程序里,形成简单的识别工具。在这个过程中,老师通过生活体验与学生讨论图像分类原理,学生从体验到实践操作,在不进行大量代码编程的情况下能够训练 AI 模型,并了解模型训练准确度与数据的关系。
2025-03-14
分布式预训练里的流水线并行
分布式预训练中的流水线并行是一种在模型参数量太大一张卡不能完全放下时采用的切分方法。具体而言,沿着模型的拓扑序将其切分成 p 段,每段为一个 stage。将大小为 N 的 minibatch 进一步切分为 m 个大小为 M 的 microbatch(N = m·M),这些 microbatch 依次进入上述 p 个 stage。 在流水线并行切分后,每个 stage 的耗时会发生变化。假设 1 指出:算力为 1 的节点,处理完整模型的 1 个 microbatch,前向和反向耗时分别是 t_f 和 t_b。基于此有推论 1:算力为 1/p 的节点,处理完整模型的 1 个 microbatch,前向和反向耗时分别是 p·t_f 和 p·t_b;推论 2:算力为 1 的节点,处理 1/p 模型的 1 个 microbatch,前向和反向耗时分别是 t_f/p 和 t_b/p;推论 3:算力为 1/p 的节点,处理 1/p 模型的 1 个 microbatch,前向和反向耗时分别是 t_f 和 t_b。 从耗时情况来看,理论上界是显存无限大,不需要 pipeline 并行,一把梭直接对 minibatch 的样本做前向和反向,耗时正比于样本数量,b_best 耗时为 t_best = m·,可见耗时是理论上界的 p 倍,存在大量计算资源闲置空载,硬件利率用很低。 最后小结,3D 并行包括数据并行。DP 计算和通信效率友好,但权重显存不友好;PP 要求 minibatch 里 batch size 足够大以掩盖流水线带来的 overhead,batch size 过大则会增大激活显存占用;TP 权重显存友好,但计算和通信效率不友好,通信量要求大。ZeRO 针对数据并行显存占用大的问题提出优化,Alpa 借鉴 AI 编译器思路对 3D 并行建模并用自动化搜索方式得到并行策略。
2025-03-14