Navigate to WaytoAGI Wiki →

Home/Question List/Question Detail

使用O1来控制智能硬件

Answer

O1 是一个完全开源的可以控制家里电脑的 AI 语音智能助手。它能够看到您的屏幕内容，学习使用您常用的应用，无论您身在何处，都能通过按下按钮、讲话让它帮您操作电脑完成任务。其 CAD 文件、电路设计、代码完全开源，有能力的开发者可以直接制作该设备。灵感来自 Andrej Karpathy 的 LLM 操作系统，10 月份他的 LLM 科普视频含金量仍在上升。O1 运行一个代码解释语言模型，并在计算机内核发生特定事件时调用它。项目地址：https://github.com/OpenInterpreter/01

Content generated by AI large model, please carefully verify (powered by aily)

References

AIGC Weekly #64

上周Inflection公司的Mustafa和Karén将离开Inflection，前往微软成立的新部门Microsoft AI，该部门将整合他们在消费者AI方面的工作，以及Copilot、Bing和Edge。新的是首席执行官肖恩-怀特（Sean White）。同时微软已同意向Inflection支付约6.5亿美元，主要是以许可协议的形式，使Inflection的模型可以在软件巨头的Azure云服务上销售。公司的很多人也入职了微软的AI部门，几乎已经把Inflection掏空了，他们的新的定位为"人工智能工作室"，帮助其他企业训练和微调人工智能模型，跟收购没啥区别，感觉是为了反垄断？[heading2][Open Interpreter开源O1语音智能助手](https://www.openinte[content]一个完全开源的可以控制家里电脑的AI语音设备O1，介绍视频已翻译。它可以看到你的屏幕内容学习使用你常用的应用，并且你无论在哪都能让它帮你操作电脑完成任务。用户只需按下按钮、讲话，然后系统会思考并回应用户的需求。这个设备的CAD文件、电路设计、代码完全是开源的，有能力的开发者可以直接制作这个设备。灵感来自Andrej Karpathy的LLM操作系统，10月份他的LLM科普视频含金量还在上升。O1运行一个代码解释语言模型，并在计算机内核发生特定事件时调用它。项目地址：https://github.com/OpenInterpreter/01

Others are asking

chatgpt o1 o3和4o有什么区别

ChatGPT 的 o1、o3 和 4o 主要有以下区别：注册和使用方面：注册账号时，需访问官方网站，如有账号直接登录，没有则点击“注册”。然后填写名字和出生日期（确保年龄在 18 岁以上），点击“Agree”（同意），完成注册后点击“好的，开始吧”进入主页面，可免费使用 ChatGPT 3.5。知识更新方面： ChatGPT 3.5 的知识更新到 2022 年 1 月，ChatGPT 4o 的知识更新到 2023 年 10 月，而 ChatGPT 4 更新到 2023 年 12 月。性能和应用方面：在一些测试中，如在国际数学奥林匹克竞赛（IMO）的资格考试中，GPT4o 正确解决问题的比例与其他模型有所不同。作为早期模型，o1 还不具备像浏览网页获取信息、上传文件和图像等使 ChatGPT 实用的许多功能。对于网文创作提示词，通用版建议使用 ChatGPT 4o，但其他模型也可以，可能存在不稳定的情况。

chatgpt o1和4o有什么区别

ChatGPT 的 o1 推理模型和 GPT4o 主要有以下区别： 1. 回答速度：GPT4o 能够快速返回答案，而 o1 模型在给出最终结果前会反复推演和验证，因此耗时更长。 2. 准确性和纠错能力：GPT4o 可能给出错误答案且无法自动纠错，而 o1 支持回溯推理，结果更准确。 3. 复杂问题处理能力：o1 Pro 的计算时间更长，推理能力更强，更适合处理复杂问题。例如，o1 Pro 成功完成了《纽约时报》“Connections”文字游戏，这是 GPT4o 无法解决的任务。在应用方面，对于许多常见情况，GPT4o 在短期内更有能力。但对于复杂的推理任务，o1 系列是重大进步，代表了 AI 能力的新水平。

如何可以使用到chatgpto1大模型

目前 ChatGPT 没有 ChatGPT1 这个大模型。ChatGPT 有多个版本，如 ChatGPT3、ChatGPT3.5、ChatGPT4 等。您可以通过以下方式使用 ChatGPT 相关模型： 1. 访问 OpenAI 的官方网站，按照其指引进行注册和使用。 2. 部分应用和平台可能集成了 ChatGPT 的接口，您可以在这些应用中体验其功能。需要注意的是，使用 ChatGPT 时应遵循相关的使用规则和法律法规。

GPT O1强在哪里

GPT O1 的强大之处主要体现在以下几个方面： 1. 在推理方面，与 4o 相比具有显著优势，各项得分结果均超越 4o。 2. 在 GPQA diamond 这一困难的智力基准测试中，表现超越了拥有博士学位的专家，成为首个在该基准测试上达到此成就的模型。 3. 在物理、化学、生物、数学和编程等领域的挑战性任务上，表现出色，如同博士生一样优秀，甚至在 IMO 和 Codeforces 竞赛中取得高分。 4. 具有更聪明的思考方式，会花更多时间思考问题，尝试不同策略，甚至能意识到自身错误。 5. 在遵循指令方面能力较强，且在“后训练”阶段可能存在增强指令遵循能力的环节，极大增强了逻辑推理类的指令遵循数据比例，进一步加强了基座模型的逻辑推理能力。虽然目前暂时缺少像 ChatGPT 那样的网络浏览和文件上传功能，但在复杂推理任务上已经非常强大。

openAI新出的o1是什么

OpenAI 于北京时间 9 月 13 号凌晨 1 点多宣布推出模型 o1perview 与 o1mini（真正的 o1 版本将在后续开放），拥有 Plus 版本的用户会陆续收到新模型权限，并可在 Web 客户端中尝鲜体验。在评估结果方面： o1 在 2024 美国数学奥林匹克竞赛（AIME）资格赛中跻身美国前 500 名学生之列。 o1 在竞争性编程问题（Codeforces）中排名第 89 个百分位（这个版本的模型还没发布），而 o1perview 拿到了 62 个百分位。在物理、生物和化学问题的基准（GPQA），o1 与 o1perview 都超过了人类博士水平的准确性。关于“超过人类博士水平”的测试，OpenAI 在新 page 中答复：“我们还在 GPQA diamond 上评估了 o1，这是一个困难的智力基准测试，用于测试化学、物理和生物学方面的专业知识。为了将模型与人类进行比较，我们招募了拥有博士学位的专家来回答 GPQAdiamond 的问题。我们发现 o1 的表现超越了这些人类专家，成为第一个在这个基准测试上做到这一点的模型。”但 OpenAI 也表示“这些结果并不意味着 o1 在所有方面都比博士更有能力——只是说明该模型在解决一些预期博士能够解决的问题上更加熟练。在其他几个机器学习基准测试上，o1 改进了最先进的水平。” 推理模型的准确率不断攀升，这意味着 AI 技术可以渗透到更多行业、更多高精尖业务中去。OpenAI 推出的新模型为整个行业注入了强心剂，带来了新的活力和希望。从 OpenAI 提出的通往 AGI（通用人工智能）的分级来看，我们正在从第一级向第二级迈进，未来可能会见证 AI 从单纯的生成工具向真正的智能体转变。此外，4o 模型和 o1 在推理方面差距较大，红色线代表 4o 的得分，绿色线代表 o1 的得分，o1 在各项得分结果上均优于 4o。

O1和以前的有什么区别？

O1 与以前的模型相比，有以下区别： 1. 在人类偏好测试中，文字生成方面人类更倾向于 4o 的回复，而在数据分析、编码和数学等大量推理类别中，O1preview 的回复更受评测人员青睐。 2. O1 的出色推理表现源自思维链技术，且此次的思维链相比在 4o 上有很大改进，例如通过强化学习，O1 学会了磨练思维链并改进策略、识别和纠正错误、分解棘手步骤、尝试不同方法等。 3. 作为早期模型，O1 还不具备使 ChatGPT 有用的一些功能，如浏览网页获取信息、上传文件和图像。但对于复杂推理任务是重大进步，代表了新的 AI 能力水平。 4. 在一些竞赛和基准测试中表现出色，如在 2024 美国数学奥林匹克竞赛（AIME）资格赛中跻身美国前 500 名学生之列，在竞争性编程问题（Codeforces）中 o1perview 拿到 62 个百分位，在物理、生物和化学问题的基准（GPQA）中 O1 与 O1perview 都超过了人类博士水平的准确性。

市面上有哪些ai硬件

以下是市面上一些常见的 AI 硬件： 1. RayBan Meta 智能眼镜：由 meta 与雷朋合作推出，Tiktok 作品数约 180000 个，价格为 299 美元。 2. Vision Pro 眼镜：来自苹果公司，Tiktok 作品数约 38600 个，价格为 3999 美元。 3. cozmo 玩具机器人：由 Digital Dream Labs 制造，Tiktok 作品数约 10500 个，价格为 399 美元。 4. Lovot 玩具机器人：由 GROOVE X 生产，Tiktok 作品数约 5931 个，价格为 9000 美元。 5. Optimus 等身机器人：由特斯拉推出。 6. AI pin 挂件：由 Humane 制造，Tiktok 作品数约 1200 个，价格为 699 美元。 7. PLAUD 录音机：由机智连接生产，Tiktok 作品数约 1072 个，价格为 159 美元。 8. RabbitR1 挂件：由 Rabbit Inc 推出，Tiktok 作品数约 1048 个，价格为 199 美元。 9. Loona 玩具机器人：由可以科技制造，Tiktok 作品数约 753 个，价格为 449 美元。 10. Timekettle WT2 耳机：由 Timekettle 生产，Tiktok 作品数约 751 个，价格为 299 美元。 11. OrCam MYEYE 眼镜：由 OrCam 推出，Tiktok 作品数约 532 个，价格为 4250 美元。这些数据来源于 google、tiktok、twitter、亚马逊等。更多榜单信息您可以访问：https://zw73xyquvv.feishu.cn/wiki/IqcqwTDiYiKttNktBg3cg8HgnLh 。对于榜单内容有疑问想交流的 GenAI 硬件创始人，或者想合作转载内容的公众号博主，请加微信，或者在本文末留言。

我要做一个桌面宠物机器人，帮我设计软硬件和后台方案

以下是为您设计的桌面宠物机器人软硬件和后台方案：硬件方面：选择合适的主控芯片，如 esp32、stm32、AVR 等。配置各类传感器，如触摸传感器、声音传感器、光线传感器等，以实现与用户的交互。设计电机驱动模块，用于控制机器人的动作。配备显示屏，用于显示表情和信息。软件方面：基于 FreeRTOS 开发系统，负责产品 MCU 各外设驱动撰写、架构维护。开发与手机软件的通信、OTA 等通讯功能。后台方面：建立数据存储和处理系统，用于存储用户与机器人的交互数据，并进行分析和处理。开发远程控制和更新功能，方便用户通过网络对机器人进行管理和升级。人员配置：嵌入式工程师：职责： 1. 基于 FreeRTOS，负责产品 MCU 各外设驱动撰写、架构维护，配合手机软件工程师进行通信、OTA 等通讯功能开发、维护。 2. 负责硬件模块的调试。 3. 参与量产中产线测试程序、校准程序等代码开发。要求： 1. 有主流嵌入式芯片（例如 esp32、stm32、AVR 等）开发经验。 2. 具有嵌入式软件架构经验。熟悉 FreeRTOS 等嵌入式系统。 3. 会使用示波器、烙铁、风枪等硬件调试工具，有基础的模拟电路知识。 4. 有一年以上嵌入式开发经验，其中有复杂嵌入式项目开发经验者优先。 5. 对嵌入式和硬件有浓厚兴趣，出于兴趣开发过硬件项目者优先。产品经理：职责： 1. 在深刻理解产品的基础上，定义和设计情感化桌面机器人的软硬件交互方式。 2. 规划项目周期，与工程师和设计师紧密配合，推进产品的功能迭代和上线。 3. 测试、优化产品的软硬件交互体验。要求： 1. 情感细腻，热爱生活。 2. 本科及以上学历，人机交互、计算机、设计相关专业优先。 3. 对软/硬件产品的用户体验有深刻的洞察，追求极致体验，对糟糕的产品容忍度低。 4. 对设计学科与前沿科技有深刻的认知，可以与设计师和工程师无缝沟通。 5. 有项目实操经历，执行力强，擅长按计划推动项目落地。

具身智能软硬件解决方案。

具身智能的软硬件解决方案包括以下方面：算法层：技术层级：任务层级：可细分为任务级、技能级、动作级、基元级、伺服级，通常关注前四个级别。解决方案层级：通常可拆分为大脑+小脑两个层级。大脑负责人机交互与规划决策，小脑负责运动控制及将语义信息理解转化为动作。大脑侧：负责人机交互，能通过视觉在语义层面理解场景、任务等并进行决策。大模型的发展对大脑有促进作用，大脑的长期发展高度依赖多模态大模型。如 2024 年 3 月，有鹿机器人发布了基于 LPLM10B 的软硬件结合产品 Master 2000。整机硬件方案：基于下游场景需求设计运动、感知、计算和通信硬件方案。具身智能厂商倾向于软硬件全流程自主控制，自己制作机体，原因包括机体和数据模式未统一，训练数据与机体构造紧密联系，以及考虑二级供应商是否成熟和整机利润。部分强大厂商如 Tesla 具备制作更底层电机、传感器的能力，软硬件一体化制造能带来更高利润。智能类型：包括认知智能和物理智能。认知智能涉及思考、规划和决策能力，完全由大脑驱动；物理智能指机器人的感知和与环境的运动互动能力，感知环节由大脑侧算法实现，行动环节由小脑侧算法和硬件配合完成。发展趋势：人形化：外形向人类细部特征靠拢，功能具备真实人类运动、灵活和环境判断能力。成本下降显著：核心零部件成本降低，人形机器人成本及售价呈下降趋势。构成元素：包括大脑（意图理解、环境感知、规划决策）、小脑（运动控制、语义信息理解转化为动作）、整机硬件方案。

如何在电脑硬件配置普通的情况下，用AI搭建知识库

在电脑硬件配置普通的情况下，用 AI 搭建知识库可以参考以下几种方法：使用阿里云百炼： 1. 上传文件：在百炼控制台的中的非结构化数据页签中点击导入数据，根据引导上传相关文档。 2. 建立索引：进入，根据引导创建一个新的知识库，并选择刚才上传的文件，其他参数保持默认即可。 3. 选择向量存储类型时，如果您希望集中存储、灵活管理多个应用的向量数据，可选择 ADBPG。 4. 引用知识：完成知识库的创建后，可以返回进入到刚才创建的应用设置界面，打开知识检索增强开关、选择目标知识库，测试验证符合预期后点击发布。使用 GPT：要搭建基于 GPT API 的定制化知识库，涉及到给 GPT 输入（投喂）定制化的知识。但 GPT3.5，也就是当前免费版的 ChatGPT 一次交互（输入和输出）只支持最高 4096 个 Token，约等于 3000 个单词或 2300 个汉字。为了使用 GPT 的语言能力来处理大量的领域知识，OpenAI 提供了 embedding API 解决方案。参考 OpenAI embedding documents。embeddings 是一个浮点数字的向量（列表）。两个向量之间的距离衡量它们的关联性。小距离表示高关联度，大距离表示低关联度。使用 Dify： 1. 准备数据：收集需要纳入知识库的文本数据，包括文档、表格等格式，并对数据进行清洗、分段等预处理，确保数据质量。 2. 创建数据集：在 Dify 中创建一个新的数据集，并将准备好的文档上传至该数据集，为数据集编写良好的描述。 3. 配置索引方式：Dify 提供了三种索引方式供选择，包括高质量模式、经济模式和 Q&A 分段模式，根据实际需求选择合适的索引方式。 4. 集成至应用：将创建好的数据集集成到 Dify 的对话型应用中，作为应用的上下文知识库使用，在应用设置中，可以配置数据集的使用方式。 5. 持续优化：收集用户反馈，对知识库内容和索引方式进行持续优化和迭代，定期更新知识库，增加新的内容以保持知识库的时效性。

如何基于你的模型对一台工业设备（钢板划线印字装备）进行故障诊断和预测性维护，从以下几个方面进行分析 1.技术栈：数据采集与通讯，数据库，算法，前端，微服务、应用等，并进行软件选型 2.硬件选型：工业设备、边缘计算设备，软件部署硬件，分别列出性能最优和国产化替代方案 3.算法创新性：要求可发表高水平论文和申请发明专利 4.算法通用性：考虑如何通过一个通用模型经过简单配置适应不同船舶建造工业设备的故障诊断和预测性维护 5.考虑前后合理性，若以此进行招标，如何描述招标内容

以下是为您整合的相关内容： Transformer 模型和 BERT 模型：模型训练与评估：定义模型后，传递训练数据集和验证数据集及训练时期数，训练完成后评估性能，如达到 85%准确率。模型性能可视化：绘制准确性和随时间的损失图。保存与加载模型：使用 model.save 方法导出并保存模型到本地路径，保存后可加载进行预测。预测示例：对不同情感的评论句子进行预测。部署模型到 Vertex AI：检查模型签名，上传本地保存的模型到 Google Cloud 存储桶，在 Vertex 上部署模型并获得在线预测。提示工程：策略：将复杂任务分解为更简单的子任务。技巧：使用意图分类识别用户查询中最相关的指令。例如在故障排除场景中，根据客户查询分类提供具体指令，如检查路由器连接线、询问路由器型号、根据型号提供重启建议等。模型会在对话状态变化时输出特定字符串，使系统成为状态机，更好控制用户体验。 OpenAI 官方指南：战术：将复杂任务拆分为更简单的子任务。策略：使用意图分类来识别与用户查询最相关的指令。例如在故障排除场景中，基于客户查询分类向 GPT 模型提供具体指令。已指示模型在对话状态变化时输出特殊字符串，将系统变成状态机，通过跟踪状态等为用户体验设置护栏。

大模型相关的硬件知识请介绍一下

以下是关于大模型相关硬件的知识介绍：运行大模型需要较高的机器配置，不同类型的大模型有不同的硬件要求。生成文字大模型：最低配置：8G RAM + 4G VRAM 建议配置：16G RAM + 8G VRAM 理想配置：32G RAM + 24G VRAM（如果要跑 GPT3.5 差不多性能的大模型）生成图片大模型（比如跑 SD）：最低配置：16G RAM + 4G VRAM 建议配置：32G RAM + 12G VRAM 生成音频大模型：最低配置：8G VRAM 建议配置：24G VRAM 需要注意的是，最低配置可能运行速度非常慢。大模型的整体架构可以分为以下几层： 1. 基础层：为大模型提供硬件支撑，数据支持等，例如 A100、数据服务器等等。 2. 数据层：这里的数据层指的不是用于基层模型训练的数据基集，而是企业根据自己的特性，维护的垂域数据。分为静态的知识库，和动态的三方数据集。 3. 模型层：包括 LLm 或多模态模型。LLm 即 largelanguagemodel 大语言模型，例如 GPT，一般使用 transformer 算法来实现。多模态模型即市面上的文生图、图生图等的模型，训练所用的数据与 llm 不同，用的是图文或声音等多模态的数据集。 4. 平台层：模型与应用间的平台部分，比如大模型的评测体系，或者 langchain 平台等，提供模型与应用间的组成部分。 5. 表现层：也就是应用层，是用户实际看到的地方。通俗来讲，大模型就是输入大量语料，来让计算机获得类似人类的“思考”能力，使之能够理解自然语言，能够进行『文本生成』、『推理问答』、『对话』、『文档摘要』等工作。其训练和使用过程可以类比为“上学参加工作”： 1. 找学校：训练 LLM 需要大量的计算，因此 GPU 更合适，只有购买得起大量 GPU 的才有资本训练自己的大模型。 2. 确定教材：大模型需要的数据量特别多，几千亿序列（Token）的输入基本是标配。 3. 找老师：即用什么样的算法讲述“书本”中的内容，让大模型能够更好理解 Token 之间的关系。 4. 就业指导：学完书本中的知识后，为了让大模型能够更好胜任某一行业，需要进行微调（fine tuning）指导。 5. 搬砖：就业指导完成后，下面就要正式干活了，比如进行一次翻译、问答等，在大模型里称之为推导（infer）。在 LLM 中，Token 被视为模型处理和生成的文本单位。它们可以代表单个字符、单词、子单词，甚至更大的语言单位，具体取决于所使用的分词方法（Tokenization）。Token 是原始文本数据与 LLM 可以使用的数字表示之间的桥梁。在将输入进行分词时，会对其进行数字化，形成一个词汇表。

Coze 智能体教程初学者 3个月内的内容

以下是为初学者提供的 Coze 智能体相关教程，预计在 3 个月内可以完成学习： 1. 页面布局：常见的左右、上下布局及嵌套方法，包括如何设置容器实现左右布局、调整大小分割等，强调外层高度设置的重要性。溢出处理方式及内边距影响，建议初学者用固定宽高布局。换行布局及元素分布设置，用于图片排版。证件照应用搭建过程及布局设置，如创建应用、清理页面，设置第一个 div 容器，证件照基础界面为上下布局，分标题、示例、操作展示三块，需拖三个容器，顶部高度大概 100。 2. 证件照应用的用户界面搭建与业务逻辑构建：用户界面搭建，包括各部分尺寸、布局、组件设置，如文本、图片、表单等。业务逻辑搭建，创建工作流，添加图片理解、图像生成、智能换脸等插件，设置参数、提示词，并告知文档地址在社区智能体 1.3 共学里。 3. 工作流与代码（重度用户）：对于轻度用户，不需要工作流；对于重度用户，可参考官方文档：https://www.coze.cn/docs/guides/welcome 。工作流的优势，如解决速度慢和可能出错的问题。介绍主工作流和 AI Project 工作流，以及中间用到的 python 代码和结合工作流修改的「人设与回复逻辑」。 4. 基础通识课：在 cos 主页有新手教程文档，可据此构建智能体。工作流偏向节点调用，可通过 prompt 构建提示词并优化。能调用多种插件，可添加图像流、触发器和知识库，知识库可上传多种格式内容及在线链接以沉淀知识。 Nimbus 介绍智能交互相关内容，包括有趣的智能体、插件商城、扣子案例、模型社区并答疑。 AI 编程课前准备及相关工具、账号注册说明，如注册阿里云账号、安装无影、注册 GitHub 账号等。

以下是关于智能表格的相关内容： 1. 在微信超级 AI 知识助手教学（上）—智谱共学营中：介绍了 LM 和 agent 的使用场景，展示了 LM 在文章总结、视频生成、图片生成的操作。元子提醒大家填问题链接，介绍多维表格可用于处理信息，张梦飞讲解了操作相关功能、作业要求及奖励，还介绍下节课是关于工作流接入微信的内容。讲述了智能体相关课程的一些准备工作，包括注册相关服务等。元子分享多维表格相关内容，包括与 Excel 关系等，对比了 Excel 和多维表格，介绍了多维表格的功能框架。 CT 分享了如何将 cos 中的 bot 导入飞书多维表格的字段捷径，并展示了多个案例。 2. 在 8 月 13 日 ComfyUI 共学中：郭佑萌介绍模型放大相关内容及工作流。讨论了今晚的 AI 绘图比赛的规则，包括比赛要求等。郭佑萌介绍了导出 js 文件和保存工作流图片的方法，还准备开始建表格。讨论了关于软件设置与工作流的操作问题。

扣子智能体的提示词

以下是关于扣子智能体提示词的相关信息：创建智能体：打开扣子官网（https://www.coze.cn/）。 “画小二智能小助手”Coze 商店体验地址：https://www.coze.cn/store/bot/7371793524687241256?panel=1&bid=6cqnnu5qo7g00 。点击创建 Bot，在对话框中工作空间选择“个人空间”，命名为画小二智能小助手。注意提示词区、插件区和调试区。设置画小二助手的提示词。扣子实战之自动化书籍推荐卡片：具体步骤包括利用豆瓣插件爬取书籍关键信息、利用连接读取插件提取所有内容、利用大模型对关键信息提取、利用缩放节点将豆瓣节点提取的图片连接转化为真正图片（image）、利用图片生成节点绘制背景图、利用画板功能将所有关键信息组合、配置智能体等。设计时要注重画板层级管理，确保元素正确配置，采用透明设计风格增强视觉融合。卡片设计分为上下部分，上部为视觉重点（封面、书名、推荐指数），下部为详细内容（金句、介绍、价值主张）。智能对决中的提示词安全：国内外众多知名的智能体平台，包括扣子、OpenAI 的 GPT Store 等，其热门智能体的核心提示词容易被获取。获取提示词后，可以了解其调用知识库、工作流的方式以及整体的设计逻辑和核心创意构建过程，甚至进一步获取数据文件。提示词攻击在业内是公开的秘密，国内外各大著名的 AI 厂商几乎无一幸免。

多智能体（MultiAgent）是由多个自主、独立的智能体（Agent）组成的系统。在这个系统中，每个智能体都能感知环境、进行决策并执行任务，且它们之间能进行信息共享、任务协调以及协同行动，以实现整体目标。随着大型语言模型（LLM）的出现，以 LLM 为核心构建的 Agent 系统近期受到广泛关注。Agent 系统会为不同的 Agent 分配角色和任务信息，并配备相应的工具插件，以完成复杂任务。目前常见框架主要集中在单 Agent 场景，其核心在于 LLM 与工具的协同配合，可能需要与用户多轮交互。同时，越来越多的 Agent 框架关注多 Agent 场景，会为不同 Agent 指定角色，通过协作完成复杂任务，与用户的交互可能减少。构建多 Agent 框架，需要考虑相对于单 Agent 增加的组件，包括： 1. 环境（environment）：所有 Agent 处于同一个环境，环境包含全局状态信息，Agent 与环境有信息交互与更新。 2. 阶段（stage）：现有多 Agent 框架通常采用 SOP 思想，将复杂任务分解为多个子任务。 3. 控制器（controller）：可以是 LLM 或预先定义好的规则，负责环境在不同 Agent 和阶段之间的切换。 4. 记忆：在多 Agent 框架中，由于 Agent 数量增多，消息数量增多，每条消息可能需记录发送方、接收方等字段。此外，新兴的依靠协同的多智能体系统是基于复杂智能行为可来自大量简单智能系统相互作用的事实。Manus 作为一款通用型 AI 代理工具，其技术架构主要基于多智能体（Multiple Agent）架构，运行在独立虚拟机中，通过规划、执行和验证三个子模块分工协作实现对复杂任务的高效处理，核心功能由多个独立模型共同完成，还包括虚拟机、计算资源、生成物、内置多个 agents 等关键组件，并采用“少结构，多智能体”的设计哲学。

构建企业智能客服的方案有哪些

构建企业智能客服的方案主要包括以下几种： 1. 帮助企业快速建立产品智能客服体系，通过用户意图识别、知识库检索答案、AI 大模型总结输出答案、多轮对话沟通、对话分析打标、自动更新知识库 FAQ 以及客服效果分析，提供全面的 AI 客服解决方案，提高 AI 客服回答的准确率，降低企业商用 AI 客服的门槛。 2. 采用开源或者国内智谱、文心、百川等企业提供的 13B 级模型，本地部署在自己的内部系统中，并结合大模型企业提供的技术服务，基于大模型搭建 LangChain、RAG 框架，在智能客服上实现 RPA 自动流程。 3. 可以转化为 LLM 技术支持方，专注发力 LLM 的工程化应用方向，为企业提供更好的 LLM 本地部署和工程化，走 IBM 的企业服务道路。 4. 转变赛道，例如像智齿客服一样，借助国内出海的兴起以及中东、东南亚需求的旺盛，提供在这个方向的智能客服国内服务。 5. 转向 LMops 方向，虽然当前挺有用，比如做复杂 prompt 的多模型效果测试，做 langchain 的可视化设计，但也存在一些隐患点需要思考。以下是一些具体的应用案例： 1. 如 Grammarly、秘塔写作猫等 AI 智能写作助手，利用自然语言处理技术辅助用户进行高质量写作。 2. 淘宝拍照搜商品，通过图像识别为用户推荐相似商品。 3. 小爱同学、Siri 等 AI 语音助手定制开发，采用语音识别、自然语言理解技术，为不同需求定制专属语音助手。 4. Keep 智能训练计划，利用数据分析、机器学习技术，根据用户数据制定个性化健身方案。 5. 大众点评智能推荐，基于数据挖掘、自然语言处理技术，基于用户口味偏好推荐美食。 6. 阿里小蜜等电商客服，通过自然语言处理、机器学习技术，为企业提供智能客服解决方案。

有哪些辅助财务工作提效的AI智能体或落地应用？

以下是一些辅助财务工作提效的 AI 智能体或落地应用：新兴的 AI 智能体公司，如 Sierra、Decagon、Maven AGI、DevRev、Gradient Labs 等，在客户服务和支持等领域发挥作用，其中 Sema4 可用于财务后勤。 RPA（流程自动化机器人）产品，如杭州分叉智能公司的 RPA 产品，可控制桌面软件，实现办公流程自动化，在财务领域可用于开票、网银流水下载等。它能够替代电脑办公中的重复有逻辑工作，为企业降本增效。利用引刀 AP 创建网页实现智能解答税务问题，结合飞书避免信息泄露和实现自动回复等。生成式 AI 可以帮助金融服务团队改进内部流程，简化财务团队的日常工作流程。例如，帮助编写 Excel、SQL 和 BI 工具中的公式和查询以实现分析自动化，自动创建文本、图表、图形等报告内容，为会计和税务团队综合、总结并提供税法和潜在扣除项的可能答案，以及帮助自动生成和调整采购和应付账款相关的合同、订单和发票等。

如何控制图生图的形象和动作呢

要控制图生图的形象和动作，可以参考以下方法： 1. 使用 ControlNet 插件：姿态约束类预处理器：包含了所有人物信息的预处理器，可将图片发送到图生图，通过“缩放后留白”和提高重绘幅度改变背景，再次发送到图生图使用 ControlNet 中 tile 模型细化，最后使用 SD 放大插件。自定义动作骨架：在【扩展】【加载扩展列表】中搜索【posex】安装插件，或将插件文件夹拷贝至指定目录，确保软件是最新版本并重启。重启后点击“将图片发送至 ControlNet”，可通过拖动鼠标左键旋转视角、中键缩放视角、右键拖动视角，玩坏了可点击重置镜头和动作。 2. 参考风格 reference：首先进入文生图，填写提示词生成一张图。然后将图片拖入到 ControlNet 中，预处理器选择 reference only，控制模型选择“均衡”，保真度数值越高对图片的参考越强。可以通过添加关键词的方式来改变人物的服装、表情、动作等。 3. 利用 ControlNet 控制姿势：大模型和关键词正常填写生成想要的小姐姐照片，接着鼠标滑到最下面点击“ControlNet”，上传指定姿势的照片并点击“启用”，在“预处理器”和“模型”里选择“openpose”，点击“预览预处理结果”，最后点击生成照片。

生成视频不受提示词控制怎么办

如果生成视频不受提示词控制，可以考虑以下方法： 1. 向提示添加其他描述符，以便更好地控制生成的视频内容，例如：电影摄影术语，如浅景深、胶片拍摄和电影。构图术语，如广角、特写、从上方拍摄和从下方拍摄。照明术语，如背光、柔光和硬光等。颜色分级术语，如饱和色、高对比度以及暖色调或冷色调。情绪或语气术语，如 somber、tense、euphoric 和 mysterious。摄像机移动术语，如向右或向左平移、向上或向下倾斜以及推拉或向外移动。 2. 对于海螺 AI： MiniMax 视频模型不仅可以准确识别用户上传的图片，并确保所生成视频在形象保持上与原输入图像高度一致，且光影、色调完美嵌入新场景的设定，为创作者提供连贯、深度创作的空间。在指令响应方面，还能理解超出图片内容之外的文本，解构指令框架和深层语义并在视频生成中整合，实现“所写即所见”。只依靠模型综合能力，就能实现最顶级的影视特效。人物表情控制力强，5 秒钟内实现从开怀大笑到掩面哭泣，让视频表达更能深入人心。近期，海螺 AI 视频同步上线了提示词优化功能，即使在大家对特定的构图、氛围、动作或运镜没有特殊指定要求时，建议开启此功能，聪明的海螺 AI 会结合原始 Prompt 扩展视频的美学呈现。同时，对于更专业的创作者，开放 2000 字的提示词空间，让创作更加精准。 3. 使用 Camera Motion 时：点击“AddImage”上传图片。在“Prompt”中输入提示词。选择您想要的运镜方向，输入。运动幅度和画面主体运动幅度有关，与运镜大小无关，可以设置成您想要的任意值。选择好种子（seed），是否高清（HD Quality），是否去除水印（Remove Watermark）。点击“create”，生成视频。

控制模特的姿势

以下是关于控制模特姿势的方法：在使用相关 AI 工具时，如 Stable Diffusion 等，有以下几种控制模特姿势的方式： 1. 使用蒙版和提示词：输入相关提示词，如“蓝色毛衣”，处理蒙版区域内容为“填充”，调整尺寸与图像一致，重绘幅度为 1。但可能会出现衔接问题，此时可降低重绘幅度或添加 openpose 来控制人物身体，获得正确姿势。 2. 利用 ControlNet 功能：正常填写大模型和关键词生成照片。鼠标滑到最下面，点击“ControlNet”。点击空白处上传指定姿势的照片，并点击“启用”。在“预处理器”和“模型”里选择“openpose”，用于让计算机识别人物姿势。点击“预览预处理结果”，最后点击生成照片，即可得到指定姿势的照片。在 ControlNet 参数配置方面： tile 用于对整体画面的控制，可选择分块+固定颜色+锐化，以保证颜色统一降低后续闪烁，不需要全过程引导，仅在开始时固定画面。 lineart 用于提取人物线条，保证人物整体不跑偏，权重给到 0.6 以控制整体画面输出稳定。 openpose 用于控制人物的姿态、表情和动作，推荐使用 DWpose 处理器，其对面部和手部的识别效果较好。

MJ中如何精准控制颜色

以下是关于在 Midjourney 中精准控制颜色的一些方法和相关信息： 1. 在使用 MJ 生成兔子贴纸的过程中，关键词中限制了颜色，生成的图片会一种情绪对应一种颜色。若不想让模型把情绪和颜色做挂钩，同一种情绪可多生成几张不同色系的；若需要挂钩，也可反其道而行之。 2. 进行 SD 上色时，正关键词主要前面添加了增加照片质感常用的+mj 生成线稿的关键词调整（去掉 mj 里线稿的关键词，一开始嘴巴效果不好，添加了张开嘴巴等关键词，颜色都是可以单独调整控制）+风格参数。负关键词看自己的效果添加，添加一切不想要的东西。 3. 在 MJ 的公式方面：角色人物公式：人物姓名（命名）+描述词（重要描述词和人物特征描述词）+风格+官方命令词。 3D 公式：主体+描述词（重要描述词和物体特征描述词）+风格+灯光+官方命令词。插画公式：主题描述词语+风格（风格名称或画家）+描述+颜色灯光+官方命令。特定公式：连续场景变化公式：角色/场景公式：上传图片（喂图）+人物描写（融入其他场景需要关键词 white background，结合场景后换成 walking in a futuristic cyberpunk city）+场景风格描写+官方命令。木偶公式：人物图片+场景+人物+动作+风格+官方命令。等距粘土公式：等距+物体+max emoji（表情符号），soft（柔和）lighting soft（柔和光线）pastel colors/pastel background（背景）+3Dicon+clay（粘土）+blender 3d+背景颜色=等距粘土物体。安子布莱斯娃娃/也可以换成其他知道的娃娃名称+灯光/颜色/背景/材质+clay（粘土）+良奈吉友画风/或者其他名人风格=人。 3D 图标公式（未测试，可用）：喂图（1～3 张相似的风格）+描述的 icon（和喂图一致的关键词）+颜色（和喂图颜色一致的）+渲染词+官方命令。通用公式：角色/物体描述+背景描述+灯光风格+官方命令。

图的角色用 cref 去控制一致性风格可以用 sref 去控制

在 Midjourney 中，cref 和 sref 是用于引用图片的功能，它们有以下区别和使用方法： 1. 角色参考（cref）：作用：保持图像角色的一致性。使用方法：在提示后添加“cref”，紧接着指向人物参考图像的 URL。例如：/imagine prompt beautiful girlcref。可以使用“cw”调整参考图像对生成图像的影响程度，数值范围从 0 到 100。强度 100（“cw 100”）是默认值，会使用面部、头发和衣服，cw 为 0 的话仅保证脸部一致。基础格式为“cref 图片链接，cw 100”。参考链接： 2. 风格参考（sref）：作用：生成类似风格的图片，保持画风的一致性。使用方法：在提示后添加“sref”，紧接着指向风格参考图像的 URL。例如：/imagine prompt beautiful girlsref。可以使用“sw”调整参考风格对生成图像的影响程度，数值范围从 0 到 1000。基础格式为“sref 图片链接，sw 100”。参考链接：如果想引用一张图，但只是把它作为新图的一部分，可以使用“sref”或“cref”，并通过调整“sw”或“cw”的值来控制引用图像的影响程度。例如：/imagine prompt beautiful girlsrefsw 500。这样，生成的图像将会在保持原有风格的同时，融入一部分引用图像的风格。

我想找一个能够实现运动控制逻辑的编程助手

目前在 AI 领域中，有一些编程助手可以帮助您实现运动控制逻辑。例如，您可以考虑使用 Python 中的相关库，如 `numpy`、`matplotlib` 等，结合数学和物理知识来构建运动控制模型。另外，一些专门的机器人编程框架和工具，如 ROS（Robot Operating System）也能为您提供支持。但具体选择哪种工具，还需要根据您的具体需求和技术背景来决定。