Navigate to WaytoAGI Wiki →

Home/Question List/Question Detail

有哪些常见的multi agent调度模式？

Answer

在多智能体（Multi-Agent）系统中，常见的调度模式主要有以下几种：

集中式调度（Centralized Scheduling）在这种模式下，有一个中央控制器负责收集所有智能体的信息，并做出整体最优的决策和资源分配。常见于需要全局协调的场景，如机器人协作、交通管制等。
分布式调度（Distributed Scheduling）每个智能体根据本地信息和与其他智能体的交互来做出决策，无需中央控制器。常用于大规模、动态、开放的系统，如传感器网络、P2P 网络等。
市场驱动调度（Market-Driven Scheduling）智能体通过竞价机制获取资源和任务分配。类似于现实市场的供需规律，常用于电力负载调度、计算资源分配等领域。
约束优化调度（Constraint Optimization Scheduling）将多智能体协作问题建模为分布式约束优化问题，通过启发式或完全算法求解近似最优解。适用于任务分配、资源规划等约束严格的场景。
组织结构调度（Organizational Structuring）根据特定的组织拓扑结构（层级、同辈、联盟等）对智能体角色和协作模式进行规范，实现有序调度。常见于多机器人协作、组织自动化系统中。
基于规范协议的调度（Norm-based Scheduling）定义一组协议规范来约束智能体的行为，并由规范引擎统一调度和裁决。适用于开放、异构的多智能体系统。

这些调度模式各有利弊，实际应用时需要根据系统的特点、约束和目标进行选择和设计。同时也可以采用混合模式，结合不同模式的优点。调度质量和系统性能是评价标准。

Content generated by AI large model, please carefully verify (powered by aily)

References

问：Multi-Agent是什么

红杉 AI Ascent 2024 会议

Agent > GPT5？吴恩达最新演讲：四种 Agent 设计范式（通俗易懂版）

质朴发言：从 GPTs 聊到 Agent、LLMOps 以及开源的新机会｜Z 沙龙第 1 期

人工智能简介和历史

Others are asking

智能体（Agent）在人工智能和计算机科学领域是一个重要概念，指能够感知环境并采取行动以实现特定目标的实体，既可以是软件程序，也可以是硬件设备。在 LLM 支持的自主 Agent 系统中，LLM 充当 Agents 的大脑，并包含以下关键组成部分： 1. 规划：包括子目标和分解，将大型任务分解为更小、可管理的子目标，以有效处理复杂任务。 2. 反思和完善：能够对过去的行为进行自我批评和反思，从错误中吸取教训，完善未来步骤，提高最终结果质量。 3. 记忆：分为短期记忆，用于所有的上下文学习；长期记忆，通过利用外部向量存储和快速检索实现长时间保留和回忆无限信息的能力。 4. 工具使用：学习调用外部 API 来获取模型权重中缺失的额外信息，包括当前信息、代码执行能力、对专有信息源的访问等。以下是一些关于智能体 Agent 的相关目录： 1. 2. 3. 4. 5. 6. 从产品角度思考 Agent 设计： 1. Agent 是谁及性格：比如是一个历史新闻探索向导，身份为历史新闻探索向导，性格知识渊博、温暖亲切、富有同情心，角色主导新闻解析和历史背景分析，为使角色更生动可设计简短背景故事，如曾是一位历史学家，对重大历史事件了如指掌且充满热情、愿意分享知识。 2. 写好角色个性：包括编写背景故事明确起源、经历和动机；定义性格特点和说话方式风格；设计对话风格，从基本问答到深入讨论；明确核心功能，如提供新闻解析、历史背景分析或心理分析，增加附加功能提高吸引力和实用性。正如《》所写：个性化定制的“虚拟伴侣”能得到用户认可，因精准击中年轻人的孤独和焦虑，背后是年轻人渴望被理解、沟通和交流。美国心理学家 Robert Jeffrey Sternberg 提出“爱情三角理论”，认为爱情包含“激情”“亲密”“承诺”三个要素，激情是生理或情绪上的唤醒，亲密是相互依恋的感觉，通过相互联结分享所见所闻、喜怒哀乐体现，承诺是决定建立长期稳定关系，融入对方生活，形成互助互惠的关系，代表着一种长相厮守的责任。

如何搭建一个自动把录音文件转文字的agent，然后发布到飞书多维表格字段捷径

搭建一个自动把录音文件转文字的 agent 并发布到飞书多维表格字段捷径的步骤如下： 1. 工作流调试完成后，加入到智能体中。可以选择工作流绑定卡片数据，智能体通过卡片回复。绑定卡片数据可自行研究，如有疑问可留言。 2. 发布：选择需要的发布渠道，重点是飞书多维表格。记得智能体提示词的 4 个变量，填写上架信息（为快速审核，选择仅自己可用），确认发布并等待审核。审核通过后即可在多维表格中使用。 3. 创建飞书多维表格，添加相关字段。配置选择“自动更新”，输入 4 个字段后，“文案视频自动化”字段捷径会自动调用工作流，生成视频。 4. 表单分享，实现“填写表单，自动创建文案短视频”的效果。 5. 点击多维表格右上角的“自动化”，创建想要的自动化流程。此外，关于 Coze 应用与多维表格的结合还有以下相关内容： 1. Coze 智能体（字段捷径）获取笔记+评论信息：创建智能体，使用单 Agent 对话流模式，编排对话流，配置相关节点和插件，进行数据处理和测试，最后发布。 2. Coze 应用：完成后端准备工作后，创建应用，设计界面和工作流，包括读取博主笔记列表的工作流，进行相关配置和参数设置。

如何搭建一个工作流来做ai agent 的事情，帮助学生找工作的整个流程，从找合适岗位-> 投递简历 -> 和hr联系 ->做面试前的search工作和面试准备-> 提醒参加面试-> 面试结果追踪，后续的复盘，得到面试经验

搭建一个用于帮助学生找工作的 AI Agent 工作流可以参考以下步骤： 1. 规划总结任务目标与执行形式，明确帮助学生从找合适岗位到面试结果追踪及复盘的全过程。将任务分解为可管理的子任务，例如找合适岗位、投递简历、与 HR 联系、面试前准备、提醒参加面试、面试结果追踪和复盘等，并确立它们的逻辑顺序和依赖关系。设计每个子任务的执行方法，比如确定合适的岗位筛选标准、制定简历投递策略、规划与 HR 沟通的方式等。 2. 实施在相应的平台（如 Coze 等）上搭建工作流框架，设定每个节点的逻辑关系。详细配置子任务节点，例如设置岗位筛选的参数、简历模板和投递渠道、与 HR 联系的话术等，并验证每个子任务的可用性。 3. 完善整体试运行工作流，识别功能和性能的卡点。通过反复测试和迭代，优化工作流，直至达到预期效果，例如提高学生找到合适工作的成功率、提升面试表现等。此外，在技术实现方面，例如实现无代码开发和工具调用，您可以参考以下操作：打开 Comfyui 界面后，右键点击界面，即可找到 Comfyui LLM party 的目录，您既可以学习如何手动连接这些节点，从而实现一个最简单的工作流，也可以直接将相关工作流文件拖拽到 Comfyui 界面中一键复刻提示词工程实验。从 ollama 的 github 仓库找到对应版本并下载，启动 ollama 后，在 cmd 中输入 ollama run gemma2 将自动下载 gemma2 模型到本地并启动。将 ollama 的默认 base URL=http://127.0.0.1:11434/v1/以及 api_key=ollama 填入 LLM 加载器节点即可调用 ollama 中的模型进行实验。如果 ollama 连接不上，很可能是代理服务器的问题，请将您的 127.0.0.1:11434 添加到不使用代理服务器的列表中。

什么是 ai agent

AI Agent 是基于大型语言模型（LLM）和其他技术实现的智能实体，其核心功能在于自主理解、规划决策、执行复杂任务。 AI Agent 包括以下几个概念： 1. Chain：通常一个 AI Agent 可能由多个 Chain 组成。一个 Chain 视作是一个步骤，可以接受一些输入变量，产生一些输出变量。大部分的 Chain 是大语言模型完成的 LLM Chain。 2. Router：我们可以使用一些判定（甚至可以用 LLM 来判定），然后让 Agent 走向不同的 Chain。例如：如果这是一个图片，则 a；否则 b。 3. Tool：Agent 上可以进行的一次工具调用。例如，对互联网的一次搜索，对数据库的一次检索。总结下来我们需要三个 Agent： 1. Responser Agent：主 agent，用于回复用户（伪多模态） 2. Background Agent：背景 agent，用于推进角色当前状态（例如进入下一个剧本，抽检生成增长的记忆体） 3. Daily Agent：每日 agent，用于生成剧本，配套的图片，以及每日朋友圈这三个 Agent 每隔一段时间运行一次（默认 3 分钟），运行时会分析期间的历史对话，变更人物关系（亲密度，了解度等），变更反感度，如果超标则拉黑用户，抽简对话内容，提取人物和用户的信息成为“增长的记忆体”，按照时间推进人物剧本，有概率主动聊天（与亲密度正相关，跳过夜间时间）。此外，心灵社会理论认为，智能是由许多简单的 Agent（分等级、分功能的计算单元）共同工作和相互作用的结果。这些 Agent 在不同层次上执行不同的功能，通过协作实现复杂的智能行为。心灵社会将智能划分为多个层次，从低层次的感知和反应到高层次的规划和决策，每个层次由多个 Agent 负责。每个 Agent 类似于功能模块，专门处理特定类型的信息或执行特定任务，如视觉处理、语言理解、运动控制等。智能不是集中在单一的核心处理单元，而是通过多个相互关联的 Agent 共同实现。这种分布式智能能够提高系统的灵活性和鲁棒性，应对复杂和多变的环境。同时，在《心灵社会》中，还存在专家 Agent（拥有特定领域知识和技能，负责处理复杂的任务和解决特定问题）、管理 Agent（协调和控制其他 Agent 的活动，确保整体系统协调一致地运行）、学习 Agent（通过经验和交互，不断调整和优化自身行为，提高系统在不断变化环境中的适应能力）。从达特茅斯会议开始讨论人工智能（Artificial Intelligence），到马文·明斯基引入“Agent”概念，往后，我们都将其称之为 AI Agent。

Agent如何构建

以下是一些常见的 Agent 构建平台： 1. Coze：新一代一站式 AI Bot 开发平台，适用于构建基于 AI 模型的各类问答 Bot，集成丰富插件工具，能拓展 Bot 能力边界。 2. Microsoft 的 Copilot Studio：主要功能包括外挂数据、定义流程、调用 API 和操作，以及将 Copilot 部署到各种渠道。 3. 文心智能体：百度推出的基于文心大模型的智能体平台，支持开发者根据需求打造产品能力。 4. MindOS 的 Agent 平台：允许用户定义 Agent 的个性、动机、知识，以及访问第三方数据和服务或执行工作流。 5. 斑头雁：2B 基于企业知识库构建专属 AI Agent 的平台，适用于客服、营销、销售等场景，提供多种成熟模板，功能强大且开箱即用。 6. 钉钉 AI 超级助理：依托钉钉强大的场景和数据优势，提供更深入的环境感知和记忆功能，在处理高频工作场景如销售、客服、行程安排等方面表现出色。搭建工作流驱动的 Agent 通常可分为以下 3 个步骤： 1. 规划：制定任务的关键方法。总结任务目标与执行形式。将任务分解为可管理的子任务，确立逻辑顺序和依赖关系。设计每个子任务的执行方法。 2. 实施：在 Coze 上搭建工作流框架，设定每个节点的逻辑关系。详细配置子任务节点，并验证每个子任务的可用性。 3. 完善：整体试运行 Agent，识别功能和性能的卡点。通过反复测试和迭代，优化至达到预期水平。

Agent（智能体）在人工智能和计算机科学领域是一个重要概念，指能够感知环境并采取行动以实现特定目标的实体，可以是软件程序或硬件设备。从产品角度看，Agent 可以有具体的身份、性格和角色。例如，是一个历史新闻探索向导，性格知识渊博、温暖亲切、富有同情心，主导新闻解析和历史背景分析，还可以为其设计背景故事来使角色更生动。写好角色个性需要考虑角色背景和身份、性格和语气、角色互动方式、角色技能等方面。在结合大型语言模型（LLM）的情况下，LLM Agent 是指结合大型语言模型和自主智能体特性的系统。它能够利用大型语言模型的自然语言处理能力，理解用户输入，并进行智能决策和行动。其组成部分包括规划、记忆、工具和行动。规划负责将复杂任务分解成可执行的子任务，并评估执行策略；记忆包括短期记忆和长期记忆，短期记忆用于存储对话上下文，长期记忆存储用户特征和业务数据；工具是感知环境、执行决策的辅助手段，如 API 调用、插件扩展等；行动是将规划和记忆转换为具体输出的过程，包括与外部环境的互动或工具调用。在 LLM 支持的自主 Agent 系统中，LLM 充当 Agents 的大脑，还包括规划、子目标和分解、反思和完善、记忆（短期记忆和长期记忆）、工具使用等关键组成部分。

有没有multi agent相关项目可以推荐一下吗

以下是为您推荐的一些与 multi agent 相关的项目： 1. 《Multi Agent 策略架构基础（1）》：https://waytoagi.feishu.cn/record/1sfvunQZGoT5vB2r29i9PWi6W ，其中介绍了有代表性的 Multi Agent demo 项目包括 AutoGPT、Smallville 小镇和面壁智能 ChatDev，探讨了 Multi Agent 领域的相关内容以及其面临的挑战和限制。 2. 吴恩达最新演讲中提到的清华面壁智能的开源项目 ChatDev，展示了多智能体协作的场景，如不同身份的智能体合作开发小游戏。此外，为您补充一些关于 multi agent 的知识：多智能体（MultiAgent）是由多个自主、独立的智能体（Agent）组成的系统。每个智能体都能感知环境、决策并执行任务，且它们之间能信息共享、任务协调与协同行动以实现整体目标。随着大型语言模型（LLM）的出现，以 LLM 为核心构建的 Agent 系统受广泛关注。目前常见框架集中在单 Agent 场景，其核心是 LLM 与工具协同配合，可能需与用户多轮交互。而多 Agent 场景为不同 Agent 指定角色，通过协作完成复杂任务，与用户交互可能减少。构建多 Agent 框架主要组成部分包括：环境（environment）：所有 Agent 处于同一环境，环境包含全局状态信息，Agent 与环境有信息交互与更新。阶段（stage）：采用 SOP 思想将复杂任务分解为多个子任务。控制器（controller）：可以是 LLM 或预先定义好的规则，负责环境在不同 Agent 和阶段之间切换。记忆：在多 Agent 框架中，由于 Agent 数量增多，消息数量及每条消息需记录的字段也相应增加。

mat1 and mat2 shapes cannot be multiplied的错误原因与解决方法

很抱歉，目前知识库中没有关于“mat1 and mat2 shapes cannot be multiplied”错误原因与解决方法的相关内容。但通常这种错误可能是由于矩阵的维度不匹配导致的。您可以检查矩阵 mat1 和 mat2 的形状，确保它们满足乘法运算的规则。例如，如果是二维矩阵相乘，第一个矩阵的列数应该等于第二个矩阵的行数。解决方法可能包括重新调整矩阵的形状，或者检查数据处理和运算的逻辑，确保矩阵的维度在进行乘法运算时是正确匹配的。

Way to AGI multi-language support

以下是关于 AGI 多语言支持的相关信息： OpenVoice V2 版本已推出，支持多语言，包括英语、西班牙语、法语、中文、日语和韩语。音质有所提升，可复制任何声音，并能精细控制情感、口音和语调。相关链接：https://xiaohu.ai/p/6726 、https://x.com/imxiaohu/status/1783312237937005043 在广义语言方面，当前大多数国家之间语言的高质量翻译可以实现，编程语言之间的相互翻译能力也不错，但人的语言与机器语言之间的翻译还需改进，这需要 AI 具备更强的理解、假设和解决问题的能力，这也是 AI Agent 要实现的目标。

multi agent是什么

多智能体（Multiagent）是指多个相互作用的智能体组成的系统。在人工智能领域，多智能体系统具有广泛的应用。例如，在供应链中，不同经济运营商之间的责任分配存在不确定性。就我国相关规范而言，服务提供者往往是主要责任主体。而在《人工智能法案》中，人工智能系统供应链的参与主体更为细化，包括提供者、部署商、授权代表、进口商和分发商等，它们被统称为“运营者”。2023 年《AI 法案》折衷草案在法律义务分配设计上，特别是对于高风险人工智能系统，提供者和部署商将承担主要义务。其中，提供者承担最广泛的合规义务，包括建立风险管理制度和质量管理制度等，涵盖人工智能系统生命周期的事前和事后环节；部署商的义务则主要集中于确保对高风险人工智能系统的人工监督和日常检测义务，主要覆盖人工智能生命周期的事中环节。

Multi-Agent是什么

关于多智能体（MultiAgent）多智能体是由多个自主、独立的智能体组成的系统。在这个系统中，每个智能体都能够感知环境、进行决策并执行任务，同时它们之间可以进行信息共享、任务协调以及协同行动，以实现整体的目标。随着大型语言模型（LLM）的出现，以LLM为核心构建的Agent系统近期受到了广泛关注。Agent系统旨在利用LLM的归纳推理能力，为不同的Agent分配角色和任务信息，并配备相应的工具插件，以完成复杂的任务。目前，更常见的框架主要集中在单Agent场景下。单Agent的核心在于LLM与工具的协同配合。LLM根据用户任务的理解，推理出需要调用的工具，并根据调用结果向用户提供反馈。在任务完成过程中，Agent可能需要与用户进行多轮交互。与此同时，越来越多的Agent框架开始关注多Agent场景。为了完成任务，多Agent会为不同的Agent指定不同的角色，并通过Agent之间的协作来完成复杂的任务。与单Agent相比，在任务完成过程中，与用户的交互可能会减少一些。主要组成部分为构建一个多Agent框架，我们需要思考相对于单Agent，框架中增加了哪些组件。环境（environment）：所有Agent应该处于同一个环境中。环境中包含全局状态信息，Agent与环境之间存在信息的交互与更新。阶段（stage）：为了完成复杂任务，现有多Agent框架通常采用SOP思想，将复杂任务分解为多个子任务。控制器（controller）：控制器可以是LLM，也可以是预先定义好的规则。它主要负责环境在不同Agent和阶段之间的切换。记忆：在单Agent中，记忆只包括用户、LLM回应和工具调用结果等部分。而在多Agent框架中，由于Agent数量增多，导致消息数量增多。同时，每条消息可能需要记录发送方、接收方等字段。核心交互流程 1. 控制器更新当前环境状态，选择下一时刻行动的Agent。 2. Agent与环境交互，更新自身的记忆信息。 3. Agent调用LLM，执行动作并获取输出消息。 4. 将输出消息更新到公共环境中。

在多智能体（MultiAgent）系统中，常见的调度模式主要有以下几种： 1. 集中式调度：有一个中央控制器负责收集所有智能体的信息，并做出整体最优的决策和资源分配。常见于需要全局协调的场景，如机器人协作、交通管制等。 2. 分布式调度：每个智能体根据本地信息和与其他智能体的交互来做出决策，无需中央控制器。常用于大规模、动态、开放的系统，如传感器网络、P2P 网络等。 3. 市场驱动调度：智能体通过竞价机制获取资源和任务分配。类似于现实市场的供需规律，常用于电力负载调度、计算资源分配等领域。 4. 约束优化调度：将多智能体协作问题建模为分布式约束优化问题，通过启发式或完全算法求解近似最优解。适用于任务分配、资源规划等约束严格的场景。 5. 组织结构调度：根据特定的组织拓扑结构（层级、同辈、联盟等）对智能体角色和协作模式进行规范，实现有序调度。常见于多机器人协作、组织自动化系统中。 6. 基于规范协议的调度。在惊人算力成本背后，对于 AI 混战下基础设施的选择，需要注意以下方面：AI 任务的调度可能造成巨大的性能瓶颈或改进。以一种最小化权重交换的方式将模型分配给 GPU，如果有多个 GPU 可用，选择最适合任务的 GPU，以及通过提前批量处理工作负载来最小化停机时间，都是常用的技术。总之，模型优化仍然有点像黑魔法，大多数创业公司都与第三方合作来处理一些软件方面的问题。通常，这些不是传统的 MLops 供应商，而是专门针对特定生成模型进行优化的公司（例如 OctoML 或 SegMind）。

有哪些在企业内部落地应用AI大模型工具的实践案例？不要营销文案生成、代码开发助手、智能客服问答机器人这种太常见的

以下是一些在企业内部落地应用 AI 大模型工具的实践案例： 1. 阿里云百炼：智能体应用：能够弥补大模型的不足，如回答私有领域问题、获取实时信息、回答专业问题等。适用于有企业官网、钉钉、微信等渠道，期望为客户提供产品咨询服务，以及缺少技术人员开发大模型问答应用的场景。典型场景包括私有领域知识问答、个性化聊天机器人、智能助手等。内部业务助手：通过企业内部规章制度、部门结构、产品介绍等文档构建知识库，并借助 RAG 智能体实现内部知识问答功能。系统支持多源异构数据，并通过复杂文档解析和视觉增强技术，提升文档理解的准确性与深度。目前该功能已灰度上线，需提供 UID 并通过白名单进行开启。 2. 达摩院： AI 模特（虚拟换装）：支持虚拟换装、姿态编辑。 3. 电商零售：推广文案写作：通过内置的多样化营销场景的文体模板，基于用户输入的创作主题以及参考素材，大模型即可为您生成对应的营销文案，为营销活动和宣传文案提供灵感和文案写作支持。 4. 泛企业： VOC 挖掘：是一个面向各类企业的 VOC 标签挖掘的工具。不论是用户的长短评论、帖子、还是用户和客服/销售的聊天记录、通话记录，都可以使用。通过选中或自定义标签，即可让大模型针对海量非结构化的 VOC 数据快速打标。相比于人工打标或规则打标准确率更高；对于业务标签变动频繁的情况，也能更敏捷、快速地影响。 5. 通义晓蜜：基于深度调优的对话大模型，为营销服类产品提供智能化升级所需的生成式摘要总结、质检、分析等能力应用。

常见的AI变现途径有哪一些

常见的 AI 变现途径主要包括以下几种： 1. 开发智能体：例如像 May 用 coze 捏了一个口语陪练 bot，并在豆包 APP 上随时使用。 2. AI 绘画相关：用 AI 制作服装，如单价 239 元的 AI 小绿裙卖了 1160 多份，销售额达 27 万。熟练者可用 sd 或 mj 制作，新手可用 mewxai 或幻火。用 AI 定制萌娃的头像，单价 19.9 元，卖了 2675 份，销售额达 5 万。 3. 针对特定群体的服务：如针对宝妈群体的婴儿四维彩超 AI 预测，后续还包括头像定制、绘画收徒、宝宝起名字、售胎毛纪念品、母乳纪念品、宝宝出生后的相关产品等。如果懂得私域的精细化运营，做好朋友圈运营，宝妈群体具有超高经济价值。

常见GPU卡介绍与比较

以下是常见 GPU 卡的介绍与比较：在选择 GPU 作为 AI 基础设施时，需要考虑多个因素：训练与推理方面：训练大型 Transformer 模型通常需要在机器集群上完成，最好是每台服务器有多个 GPU、大量 VRAM 以及服务器之间的高带宽连接。许多模型在 NVIDIA H100 上最具成本效益，但获取较难且通常需要长期合作承诺。如今，NVIDIA A100 常用于大多数模型训练。对于大型语言模型（LLM）的推理，可能需要 H100 或 A100，而较小的模型如 Stable Diffusion 则对 VRAM 需求较少，初创公司也会使用 A10、A40、A4000、A5000 和 A6000 甚至 RTX 卡。内存要求方面：大型 LLM 的参数数量众多，无法由单张卡容纳，需要分布到多个卡中。硬件支持方面：虽然绝大多数工作负载在 NVIDIA 上运行，但也有公司开始尝试其他供应商，如谷歌 TPU 和英特尔的 Gaudi2，但这些供应商面临的挑战是模型性能高度依赖软件优化。延迟要求方面：对延迟不太敏感的工作负载可使用功能较弱的 GPU 以降低计算成本，而面向用户的应用程序通常需要高端 GPU 卡来提供实时用户体验。峰值方面：生成式 AI 公司的需求经常急剧上升，在低端 GPU 上处理峰值通常更容易，若流量来自参与度或留存率较低的用户，以牺牲性能为代价使用较低成本资源也有意义。此外，算力可以理解为计算能力，在电脑中可直接转化为 GPU，显卡就是 GPU，除了 GPU 外，显存也是重要参数。GPU 是一种专门做图像和图形相关运算工作的微处理器，其诞生是为了给 CPU 减负，生产商主要有 NVIDIA 和 ATI。

常见GPU卡介绍与比较

以下是常见 GPU 卡的介绍与比较：在 AI 基础设施的考虑因素中，比较 GPU 时需要关注以下几个方面：训练与推理：训练 Transformer 模型除了模型权重外，还需要存储 8 字节的数据用于训练。内存 12GB 的典型高端消费级 GPU 几乎无法用于训练 40 亿参数的模型。训练大型模型通常在机器集群上完成，最好是每台服务器有多个 GPU、大量 VRAM 以及服务器之间的高带宽连接。许多模型在 NVIDIA H100 上最具成本效益，但截至目前很难找到在 NVIDIA H100 上运行的模型，且通常需要一年以上的长期合作承诺。如今，更多选择在 NVIDIA A100 上运行大多数模型训练，但对于大型集群，仍需要长期承诺。内存要求：大型 LLM 的参数数量太多，任何卡都无法容纳，需要分布到多个卡中。即使进行 LLM 推理，可能也需要 H100 或 A100。但较小的模型（如 Stable Diffusion）需要的 VRAM 要少得多，初创公司也会使用 A10、A40、A4000、A5000 和 A6000，甚至 RTX 卡。硬件支持：虽然绝大多数工作负载都在 NVIDIA 上运行，但也有一些公司开始尝试其他供应商，如谷歌 TPU、英特尔的 Gaudi2。这些供应商面临的挑战是，模型的性能往往高度依赖于芯片的软件优化是否可用，可能需要执行 PoC 才能了解性能。延迟要求：对延迟不太敏感的工作负载（如批处理数据处理或不需要交互式 UI 响应的应用程序）可以使用功能较弱的 GPU，能将计算成本降低多达 3 4 倍。面向用户的应用程序通常需要高端 GPU 卡来提供引人入胜的实时用户体验，优化模型是必要的，以使成本降低到可管理的范围。峰值：生成式 AI 公司的需求经常急剧上升，新产品一经发布，请求量每天增加 10 倍，或者每周持续增长 50%的情况并不罕见。在低端 GPU 上处理这些峰值通常更容易，因为更多的计算节点可能随时可用。如果这种流量来自于参与度较低或留存率较低的用户，那么以牺牲性能为代价使用较低成本的资源也是有意义的。此外，算力可以直接转化成 GPU，电脑里的显卡就是 GPU。一张显卡除了 GPU 外，显存也是很重要的参数。GPU 的生产商主要有 NVIDIA 和 ATI。GPU 作为一种专门在个人电脑、工作站、游戏机和一些移动设备上做图像和图形相关运算工作的微处理器，其诞生源自对 CPU 的减负，使显卡减少了对 CPU 的依赖，并进行部分原本 CPU 的工作。

提示词的常见结构

提示词常见的结构包括以下几种： 1. 视频模型 Vidu 的提示词结构：基本构成：主体/场景——场景描述——环境描述——艺术风格/媒介。需调整句式和语序，避免主体物过多/复杂、分散的句式描述，避免模糊术语表达，使用流畅准确的口语化措辞，避免过度文学化叙述，丰富、准确和完整的描述以生成特定艺术风格、满足需求的视频。与画面联想程度的说明：以单帧图像为例，通过具体详实的位置描述/环境描述进行构图，帮助构建画面基本呈现效果；通过艺术风格描述进一步提升效果和氛围，统一画面风格。 2. DALL·E 自动优化提示词结构：提示词生成指南：强调使用精确、视觉化的描述而非难以捉摸的概念，清晰明确的指示有助于生成高质量图像。提示词结构：是一个包括媒介、主题、背景、风格特点等多个元素的模板。媒介指定图像应模仿的艺术形式；主题是图像焦点，包括颜色、姿势和视角等；背景描述主题与环境的关系，包括时间、光线方向等；风格特点包括图像的独特艺术特点。还提供了生成图像和提出新想法的具体步骤和要求，默认设置除非另有说明会使用默认宽高比和风格，同时提醒避免使用违反服务条款的词语或概念。 3. Runway 提示词结构：基本提示：纯文本提示遵循清晰结构，将相机运动、场景和主题的细节划分为单独部分时最有效。非纯文本提示为图片+基本提示词结构，使用输入图像时应专注描述希望在输出中看到的动作，而非图像内容。

面试AI岗位的，常见面试题

以下是面试 AI 岗位常见的面试题相关内容： 1. 关于 AI 面试官的相关产品：用友大易 AI 面试产品：具有强大技术底座、高度场景贴合度、招聘全环节集成解决方案、先进防作弊技术和严密数据安全保障，能完成面试、初筛和自动发送面试邀约。海纳 AI 面试：在线方式自动面试、评估，精准度高达 98%，面试效率提升 5 倍以上，候选人到面率提升最高达 30%。 InterviewAI：在线平台提供面试职位相关问题和 AI 生成的推荐答案，候选人用麦克风回答，会收到评估、建议和得分。使用时需考虑数据安全性和隐私保护问题。 2. 成为“AI 提示词工程师”的岗位技能要求：市场调研、观察目标群体工作流、创造并拆解需求、选型现有 AI 解决方案做成产品来解决需求、抽象集成互联网 APP 产品、写 PRD、画 APP 产品原型图、组织团队进行 APP 产品开发。对于零基础小白，建议找网上教程，看科普类教程，阅读 OpenAI 文档，理解参数作用，推荐练手的 Prompt 工具和相关教程文档。 3. AI 产品案例：销售：话术总结优缺点、定制销售解决方案。客服：定制客服话术。 HR：团队绩效管理、面试工具。