Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

使用O1来控制智能硬件

Answer

O1 是一个完全开源的可以控制家里电脑的 AI 语音智能助手。它能够看到您的屏幕内容,学习使用您常用的应用,无论您身在何处,都能通过按下按钮、讲话让它帮您操作电脑完成任务。其 CAD 文件、电路设计、代码完全开源,有能力的开发者可以直接制作该设备。灵感来自 Andrej Karpathy 的 LLM 操作系统,10 月份他的 LLM 科普视频含金量仍在上升。O1 运行一个代码解释语言模型,并在计算机内核发生特定事件时调用它。项目地址:https://github.com/OpenInterpreter/01

Content generated by AI large model, please carefully verify (powered by aily)

References

AIGC Weekly #64

上周Inflection公司的Mustafa和Karén将离开Inflection,前往微软成立的新部门Microsoft AI,该部门将整合他们在消费者AI方面的工作,以及Copilot、Bing和Edge。新的是首席执行官肖恩-怀特(Sean White)。同时微软已同意向Inflection支付约6.5亿美元,主要是以许可协议的形式,使Inflection的模型可以在软件巨头的Azure云服务上销售。公司的很多人也入职了微软的AI部门,几乎已经把Inflection掏空了,他们的新的定位为"人工智能工作室",帮助其他企业训练和微调人工智能模型,跟收购没啥区别,感觉是为了反垄断?[heading2][Open Interpreter开源O1语音智能助手](https://www.openinte[content]一个完全开源的可以控制家里电脑的AI语音设备O1,介绍视频已翻译。它可以看到你的屏幕内容学习使用你常用的应用,并且你无论在哪都能让它帮你操作电脑完成任务。用户只需按下按钮、讲话,然后系统会思考并回应用户的需求。这个设备的CAD文件、电路设计、代码完全是开源的,有能力的开发者可以直接制作这个设备。灵感来自Andrej Karpathy的LLM操作系统,10月份他的LLM科普视频含金量还在上升。O1运行一个代码解释语言模型,并在计算机内核发生特定事件时调用它。项目地址:https://github.com/OpenInterpreter/01

Others are asking
如何可以使用到chatgpto1大模型
目前 ChatGPT 没有 ChatGPT1 这个大模型。ChatGPT 有多个版本,如 ChatGPT3、ChatGPT3.5、ChatGPT4 等。您可以通过以下方式使用 ChatGPT 相关模型: 1. 访问 OpenAI 的官方网站,按照其指引进行注册和使用。 2. 部分应用和平台可能集成了 ChatGPT 的接口,您可以在这些应用中体验其功能。 需要注意的是,使用 ChatGPT 时应遵循相关的使用规则和法律法规。
2024-11-16
GPT O1强在哪里
GPT O1 的强大之处主要体现在以下几个方面: 1. 在推理方面,与 4o 相比具有显著优势,各项得分结果均超越 4o。 2. 在 GPQA diamond 这一困难的智力基准测试中,表现超越了拥有博士学位的专家,成为首个在该基准测试上达到此成就的模型。 3. 在物理、化学、生物、数学和编程等领域的挑战性任务上,表现出色,如同博士生一样优秀,甚至在 IMO 和 Codeforces 竞赛中取得高分。 4. 具有更聪明的思考方式,会花更多时间思考问题,尝试不同策略,甚至能意识到自身错误。 5. 在遵循指令方面能力较强,且在“后训练”阶段可能存在增强指令遵循能力的环节,极大增强了逻辑推理类的指令遵循数据比例,进一步加强了基座模型的逻辑推理能力。 虽然目前暂时缺少像 ChatGPT 那样的网络浏览和文件上传功能,但在复杂推理任务上已经非常强大。
2024-09-27
openAI新出的o1是什么
OpenAI 于北京时间 9 月 13 号凌晨 1 点多宣布推出模型 o1perview 与 o1mini(真正的 o1 版本将在后续开放),拥有 Plus 版本的用户会陆续收到新模型权限,并可在 Web 客户端中尝鲜体验。 在评估结果方面: o1 在 2024 美国数学奥林匹克竞赛(AIME)资格赛中跻身美国前 500 名学生之列。 o1 在竞争性编程问题(Codeforces)中排名第 89 个百分位(这个版本的模型还没发布),而 o1perview 拿到了 62 个百分位。 在物理、生物和化学问题的基准(GPQA),o1 与 o1perview 都超过了人类博士水平的准确性。 关于“超过人类博士水平”的测试,OpenAI 在新 page 中答复:“我们还在 GPQA diamond 上评估了 o1,这是一个困难的智力基准测试,用于测试化学、物理和生物学方面的专业知识。为了将模型与人类进行比较,我们招募了拥有博士学位的专家来回答 GPQAdiamond 的问题。我们发现 o1 的表现超越了这些人类专家,成为第一个在这个基准测试上做到这一点的模型。”但 OpenAI 也表示“这些结果并不意味着 o1 在所有方面都比博士更有能力——只是说明该模型在解决一些预期博士能够解决的问题上更加熟练。在其他几个机器学习基准测试上,o1 改进了最先进的水平。” 推理模型的准确率不断攀升,这意味着 AI 技术可以渗透到更多行业、更多高精尖业务中去。OpenAI 推出的新模型为整个行业注入了强心剂,带来了新的活力和希望。从 OpenAI 提出的通往 AGI(通用人工智能)的分级来看,我们正在从第一级向第二级迈进,未来可能会见证 AI 从单纯的生成工具向真正的智能体转变。此外,4o 模型和 o1 在推理方面差距较大,红色线代表 4o 的得分,绿色线代表 o1 的得分,o1 在各项得分结果上均优于 4o。
2024-09-18
O1和以前的有什么区别?
O1 与以前的模型相比,有以下区别: 1. 在人类偏好测试中,文字生成方面人类更倾向于 4o 的回复,而在数据分析、编码和数学等大量推理类别中,O1preview 的回复更受评测人员青睐。 2. O1 的出色推理表现源自思维链技术,且此次的思维链相比在 4o 上有很大改进,例如通过强化学习,O1 学会了磨练思维链并改进策略、识别和纠正错误、分解棘手步骤、尝试不同方法等。 3. 作为早期模型,O1 还不具备使 ChatGPT 有用的一些功能,如浏览网页获取信息、上传文件和图像。但对于复杂推理任务是重大进步,代表了新的 AI 能力水平。 4. 在一些竞赛和基准测试中表现出色,如在 2024 美国数学奥林匹克竞赛(AIME)资格赛中跻身美国前 500 名学生之列,在竞争性编程问题(Codeforces)中 o1perview 拿到 62 个百分位,在物理、生物和化学问题的基准(GPQA)中 O1 与 O1perview 都超过了人类博士水平的准确性。
2024-09-16
介绍一下有没有适合一个5个人软件开发公使用的AI服务器,包含软硬件
目前市面上有多种适合 5 人软件开发公司使用的 AI 服务器,软硬件的选择需要综合考虑多方面因素。 在硬件方面,服务器的处理器性能至关重要,例如英特尔至强系列处理器具有较强的计算能力。内存容量应足够大,以满足数据处理和模型训练的需求,建议至少 32GB 或更高。存储方面,高速的固态硬盘(SSD)可以提供快速的数据读写速度。 在软件方面,常见的操作系统如 Linux(如 Ubuntu、CentOS 等)具有较好的稳定性和兼容性。深度学习框架如 TensorFlow、PyTorch 等是进行 AI 开发的重要工具。同时,还需要配备相关的数据库管理软件、开发工具和监控软件等。 然而,具体的选择还需根据公司的业务需求、预算以及技术团队的熟悉程度来决定。
2025-02-05
如果想做一个智能硬件接入豆包的话,应该怎么做?
要将智能硬件接入豆包,您可以参考以下步骤和相关信息: 1. 了解智能体的交互能力:包括大模型本身的交互能力、多 Agent 的灵活性以及 workflow 的妙用,通过引导用户输入相关信息,便于大模型理解和分析,同时注意上下文说明。 2. 构建智能体的知识体量:利用豆包大模型本身的行业数据和语料库,创建知识库(结构化数据),包括步骤一至步骤五的处理过程。您可以参考。同时,了解参赛用知识库,包括大模型 RAG 检索、大模型的选择和参数设定以及新模型的调用方法,可参考https://console.volcengine.com/ark/region:ark+cnbeijing/model?projectName=undefined&vendor=Bytedance&view=LIST_VIEW 。 3. 关注智能体的记忆能力:涉及变量和数据库等方面的信息记录。 在具体的应用场景中,如火山引擎 AI 创造者大赛中,不同赛道有不同的要求和核心目标。例如,在汽车品牌相关的赛道中: AI 座舱赛道:利用豆包大模型、扣子专业版以及吉利原子化能力,探索 AI 在智能座舱中的多样化应用,通过智能座舱内的智能体开发,满足车主定制化的需求。 AI 营销赛道:利用豆包大模型和扣子专业版,开发出能高效投放广告、精准用户画像、提升销售能力、优化线索转化智能体方案,助力汽车行业实现高效营销。 AI 售后赛道:利用豆包大模型和扣子专业版,提供创新且实际可行的智能体应用,提升汽车售后服务效率与用户体验,优化汽车售后服务体系,助力汽车行业智能化升级。 此外,在飞书多维表格 AI 共学中,也有基于豆包大模型的能力升级与产品化探索,包括大模型在综合能力、推理能力、指令遵循、代码数学专业知识和图片理解等方面的升级,以及将其能力接入多维表格的字段捷径等尝试。在使用相关功能前,可能需要注册豆包大模型账号并进行关联。
2025-01-22
列举常用的剪辑软件、硬件设备、技术支持和3d动画软件
常用的剪辑软件有 Adobe Premiere Pro、Final Cut Pro、DaVinci Resolve 等。 常用的硬件设备包括高性能的计算机主机,具备强大处理能力的 CPU(如英特尔酷睿 i7 或 i9 系列)、大容量高速内存(16GB 及以上)、专业图形显卡(如 NVIDIA GeForce 系列)、大容量高速存储硬盘(如 SSD 固态硬盘),以及高分辨率和色彩准确的显示器。 常见的技术支持包括视频编码和解码技术(如 H.264、H.265 等)、特效插件(如 After Effects 插件)、色彩校正工具等。 常用的 3D 动画软件有 Maya、3ds Max、Blender 等。
2025-01-16
列举常用的剪辑软件、硬件设备以及技术支持,3d动画和ai视频生成
以下是关于剪辑软件、硬件设备、技术支持、3D 动画和 AI 视频生成的相关信息: AI 视频生成工具: Runway: 主要能力:文生视频(Text 2 Video)、Prompt+图像生成视频(Text+Image to Video)、无 Prompt 直接图片转视频(Image to Video)。 使用建议:Text to Video 时,优先使用右下角的“Free Preview”免费生成多组图片,然后从中选择一张进行视频生成以节约 credits。 近期更新:支持将 4s 的视频延长,每次延长需消耗 20 credits;9 月更新中,支持 110 级的 motion slider 调节,默认幅度为 5,同时支持水平、垂直、空间和旋转的运镜,并支持调节运动速度。 其他功能:提供 30 多项图片、视频处理能力,如 Inpainting 视频修复、Motion Tracking 视频主体跟随运动、Remove Any Background 删除视频元素/背景、3D Texture 生成 3D 纹理等。控制台上线了 Watch 模块,可查看官方精选的创意案例。推荐教程:ai 繪圖教學|Ai 动画:https://www.youtube.com/watch?v=Yj73NRmeSZM 由于您未明确提及剪辑软件、硬件设备和技术支持的具体需求,暂时无法为您详细列举。如果您能提供更具体的要求,我将为您提供更有针对性的信息。
2025-01-16
可以嵌入AI玩具的硬件
以下是关于可以嵌入 AI 玩具的硬件的相关信息: 一个名为“跃然创新”的 20 人小微创业团队,将大模型装进毛绒玩具里,赋予毛绒玩具生命。其 CEO 李勇和 COO 高峰是资深的互联网+硬件从业者。 做儿童场景产品是李勇和高峰长久以来的梦想,源于对天猫精灵多数语音交互来自孩子这组数据的洞察。之前智能音箱的 AI 交互体验不够好,直到 ChatGPT 出现,他们确定将大模型和毛绒玩具结合,做一家陪伴孩子成长的 AI 毛绒玩具公司。 “情绪价值”是李勇理解儿童陪伴场景的关键词,认为 AI 毛绒玩具更具情感陪伴属性,相较于音箱、故事机、机器人、平板等,毛绒玩具更能带给孩子安全感。 明确了 AI+毛绒玩具的产品方向后,团队基于大模型做训练、引进 IP 版权、接洽供应链全速推进。未来除了联名 IP 外,也会有自己的原创 IP。 基于数百名孩子的调研结果,不同孩子使用 AI 毛绒玩具有区别,但基本都喜欢。李勇强调跟它聊得越多,它就越懂孩子、越能发现孩子的潜能。 由于毛绒玩具购买者与使用者分离,团队做了很多让家长有安全感的工作,比如家长可通过 App 查看聊天记录,危险话题会推送预警信息,还能从聊天记录了解孩子真实喜好,AI 毛绒玩具成为家长和孩子沟通的桥梁。 团队透露近期首款 AI 毛绒玩具产品会面世。
2025-01-14
前沿AI硬件
以下是关于前沿 AI 硬件的相关信息: 由郎瀚威 Will 发起的 GenAI 硬件榜单: 定义:利用 GenAI 技术(主要是 LLM),与音频生成、翻译、视觉采集并解读相结合,以可穿戴为主逐步渗透的新品类硬件,以 Meta 雷朋眼镜为代表。 本期情况:未收录较大的 GenAI 硬件如 AI PC、AI 手机,以可穿戴、AI 助理相关硬件为起点。 榜单受众:GenAI 硬件创始人、投资人、从业者等。 榜单标的:以北美市场的视角,销量、影响力为主。 榜单初心:随着 Meta 眼镜的成功,GenAI 硬件爆发在即,每月从多角度围观这一现象,旨在给创业者提供参考。 本次更新(9.19): 更新亚马逊销量、独立站流量、新品发布、融资信息,排序标准从媒体综合指数改为 Tiktok 热度。 完善挂件、戒指、眼镜等分类榜数据。 榜单目录:包括 GenAI 硬件北美公开销量榜、GenAI 硬件亚马逊销量榜等共 15 个重要榜单。更多榜单可文末点击“阅读原文”免费访问或直接访问飞书:https://zw73xyquvv.feishu.cn/wiki/IqcqwTDiYiKttNktBg3cg8HgnLh 。数据来源:google、tiktok、twitter、亚马逊。对于榜单内容有疑问想交流的 GenAI 硬件创始人,或者想合作转载内容的公众号博主,请加微信,或者在本文末留言。 今年很火的几款 AI native 硬件: Rewind Pendant:可穿戴设备,能捕捉现实中所说和听到的内容,进行录音转录、数据加密和本地存储,保障安全性和隐私保护。https://www.rewind.ai/pendant Rabbit R1:新型人工智能驱动的移动设备,通过高级语音命令简化应用程序使用,售价 199 美元,配备 360 度摄像头、触摸屏和 4G 连接。Rabbit OS 基于 Large Action Model(LAM 大动作模型),能处理自然语言并转化为可执行任务,与常见应用交互,支持语音命令执行复杂任务,未来用户可教会其执行特定任务。https://www.rabbit.tech/
2024-12-27
扣子智能体搭建工作流
扣子智能体的搭建工作流主要包括以下内容: 1. 插件:扣子平台上有多种类型的插件,如看新闻、规划旅行、提高办公效率、理解图片内容的 API 等,还可自定义插件添加所需 API,使智能体更强大。 2. 工作流: 工作流如同可视化拼图游戏,可将插件、大语言模型、代码块等功能组合,创建复杂稳定的业务流程。 工作流由多个小块块(节点)组成,包括开始和结束的小块块,不同小块块可能需要引用前面小块块的信息或自行设定的信息。 例如“竖起耳朵听”的智能体中用到 5 个小块块,能回答带有图片口语的结果。 生物医药小助手智能体由 1 个工作流和 6 个数据库实现,工作流设计简单,包括 input、对接知识库、搭载豆包 function call 大模型和 output,相对有难度的是收集和校对知识库资料。 在落地应用方面,如通过扣子工作流用代码模块进行 HTTP 访问实现 0 token 脱离扣子模型使用 Groq 作为 LLM,还可适配到 APP 产品填 APIKEY 调用的场景,或接入手机类 APP 如 Siri 等。但扣子工作流的搭建细节需自行移步 WaytoAGI 自学。
2025-02-05
企业微信客服号能对接dify知识库,实现智能客服功能吗?
企业微信客服号能对接 Dify 知识库实现智能客服功能。以下是相关步骤: 1. 在 Dify 平台创建基础编排聊天助手应用,获取 API 密钥和 API 服务器地址。 2. 下载 Dify on WeChat 项目并安装依赖。 3. 在项目根目录创建 config.json 文件,填写 API 密钥和服务器地址。 4. 把基础编排聊天助手接入微信,可选择源码部署或 Docker 部署,进行快速启动测试,扫码登录并对话测试。 5. 把工作流编排聊天助手接入微信,创建知识库,导入知识库文件,创建工作流编排聊天助手应用,设置知识检索节点和 LLM 节点,发布更新并访问 API。 6. 把 Agent 应用接入微信,创建 Agent 应用,设置对话模型和添加工具,生成 API 密钥,填写配置文件,启动程序并进行测试。 更多内容请访问原文:https://docs.dify.ai/v/zhhans/learnmore/usecases/difyonwechat 另外,通过云服务器、Dify、智能微秘书免费搭建微信机器人的部署 Dify 步骤如下: https://docs.dify.ai/v/zhhans/gettingstarted/installselfhosted/dockercompose ,这些命令在宝塔面板的终端安装。 零成本、零代码搭建一个智能微信客服的步骤如下: 1. 访问微信客服 https://kf.weixin.qq.com/,点击开通。 2. 勾选同意,点击下一步。 3. 按步骤填写,勾选同意,注册企业微信。 4. 点击配置>到微信客服的企业信息,复制企业 ID>到 coze 页面进行粘贴填写企业 ID,并点击下一步。 5. 到微信客服的开发配置,找到到回调配置,复制 Token、EncodingAESKey(如果还是空的,点击“随机获取”即可),到 coze 页面进行粘贴,点击下一步。 6. 到微信客服的开发配置,配置回调地址 URL、复制 Secret 到 coze 的页面粘贴。 7. 到微信客服的客服账号,创建一个客服账号,复制客服账号名称,到 coze 的页面粘贴,点击保存。 第一次设置回调地址时,注意目前需要企业认证,才可以进行接入微信客服。如果企业没有进行认证,则会在配置回调 URL 时报错:回调域名校验失败。另外,之前未进行企业认证就发布过微信客服的不受影响。第一次设置成功后,后面再修改是特定页面。保存后,在 coze 发布页面的发布平台的微信客服这里,显示“已配置”,剩下的就是勾选,点击发布。
2025-02-05
智能体创业
智能体创业相关内容如下: 概念定义: 智能体是随着 ChatGPT 与 AI 概念爆火出现的新名词,如“智能体 Agent”、bot 和 GPTs 等。简单理解就是 AI 机器人小助手,参照移动互联网,类似 APP 应用的概念。AI 大模型是技术,面向用户提供服务的是产品,因此很多公司关注 AI 应用层的产品机会。 C 端案例:在社交方向,用户注册后先捏一个自己的 Agent,让其与他人的 Agent 聊天,两个 Agent 聊到一起后真人介入;还有借 Onlyfans 入局打造个性化聊天的创业公司。 B 端案例:字节扣子和腾讯元器是面向普通人的低代码平台,类似 APP 时代的个人开发者,还有帮助 B 端商家搭建 Agent 的机会。 智能体开发平台:最早接触到的是扣子 Coze,2 月 1 日字节正式推出其国内版“扣子”,用于开发下一代 AI 聊天机器人。国内还有很多智能体开发平台,如 Dify.AI,但个人常用的是扣子,本篇主要对比字节扣子和腾讯元器。 相关人物及课程:韦恩是智能体创业者、WayToAGI 共建者、微软提示词工程师、多平台 Agent 开发者、企业级 AI Agent 定制专家,荣获多家 AI 开发平台比赛奖项,有 12 年程序开发背景和多家企业的 AI 落地顾问经验。其课程包括入门搭建证件照应用和进阶邮票收藏馆搭建,能让学习者全面认识扣子的 AI 应用底层逻辑,解决 AI 应用核心卡点,收获价值千元的 AI 应用。
2025-02-05
到目前为止,人工只能已经发展到什么样的一个程度了,未来前景怎么样?普通人如何通过人工智能挣到钱
目前人工智能的发展呈现出复杂的态势: 预计明年会有团体花费超过 10 亿美元训练单个大规模模型,通用人工智能的热潮仍在持续,但其成本也在不断增加。 政府和大型科技公司都面临着计算需求超出电网支持能力的问题。 人工智能对选举的影响尚未完全显现,但仍需关注。 以 OpenAI、Meta 以及中国实验室为代表,竞争激烈。 未来前景方面: 深度学习被证明有效,且随着规模扩大预期会改善,能帮助解决更多难题,对全球人民生活产生有意义的改善。 人工智能模型将作为个人助理执行特定任务,帮助构建更好的下一代系统,并推动各领域科学进展。 对于普通人如何通过人工智能挣钱,以下是一些可能的途径: 学习相关技能,如编程、数据分析等,参与人工智能项目的开发和维护。 利用人工智能工具进行内容创作,如写作、绘画等,并通过相关平台实现盈利。 关注人工智能领域的新兴应用,寻找创业机会。
2025-02-05
目前国内最好的生产PPT的人工智能软件是哪一款
目前国内有以下几款较好的生产 PPT 的人工智能软件: 1. Gamma:在线 PPT 制作网站,可通过输入文本和想法提示快速生成幻灯片,支持嵌入多媒体格式。网址:https://gamma.app/ 2. 美图 AI PPT:由美图秀秀团队推出,通过输入简单文本描述生成专业 PPT 设计,有丰富模板库和设计元素。网址:https://www.xdesign.com/ppt/ 3. Mindshow:AI 驱动的 PPT 辅助工具,提供智能设计功能,如自动布局、图像选择和文本优化等。网址:https://www.mindshow.fun/ 4. 讯飞智文:科大讯飞推出的 AI 辅助文档编辑工具,利用语音识别和自然语言处理技术,提供智能文本生成等功能。网址:https://zhiwen.xfyun.cn/ 5. 爱设计 PPT:在国内 AI 辅助制作 PPT 的产品中表现出色,背后有强大团队,能把握市场机遇,已确立市场领先地位。 6. 闪击 7. Process ON 8. WPS AI
2025-02-05
当我想要解决一个问题,面对如此多的AI站点和AI智能体,我该如何选择?
在面对众多的 AI 站点和 AI 智能体时,您可以从以下几个方面进行选择: 1. 明确自身需求:确定您希望解决的具体问题和期望达到的目标,以便找到与之匹配的 AI 工具。 2. 了解功能特点:不同的 AI 智能体具有不同的功能和优势。例如,有些擅长自然语言处理和回答各种问题,有些则在特定领域如编程、设计等有出色表现。 3. 考虑技术能力:包括模型的性能、上下文窗口长度、响应速度和并发支持等。响应速度快、并发支持高的工具能在多人使用时保持良好性能。 4. 成本因素:关注免费或低价的选项,以降低使用成本。 5. 个性化需求满足:选择能够根据您的业务场景和个性化需求进行定制的 AI 智能体。 例如,字节的扣子(Coze)是新一代一站式 AI Bot 开发平台,无论有无编程基础都能构建各类问答 Bot,并可发布到多种社交平台和通讯软件上。而在开发 AI 插件时,像 AI Share Card 插件会根据需求选择合适的模型,如选用了具有较长上下文窗口、免费且并发支持高的 GLM4flash 模型。 总之,要综合考虑自身需求、功能特点、技术能力、成本和个性化等因素,选择最适合您的 AI 站点和智能体。
2025-02-04
控制模特的姿势
以下是关于控制模特姿势的方法: 在使用相关 AI 工具时,如 Stable Diffusion 等,有以下几种控制模特姿势的方式: 1. 使用蒙版和提示词:输入相关提示词,如“蓝色毛衣”,处理蒙版区域内容为“填充”,调整尺寸与图像一致,重绘幅度为 1。但可能会出现衔接问题,此时可降低重绘幅度或添加 openpose 来控制人物身体,获得正确姿势。 2. 利用 ControlNet 功能: 正常填写大模型和关键词生成照片。 鼠标滑到最下面,点击“ControlNet”。 点击空白处上传指定姿势的照片,并点击“启用”。 在“预处理器”和“模型”里选择“openpose”,用于让计算机识别人物姿势。 点击“预览预处理结果”,最后点击生成照片,即可得到指定姿势的照片。 在 ControlNet 参数配置方面: tile 用于对整体画面的控制,可选择分块+固定颜色+锐化,以保证颜色统一降低后续闪烁,不需要全过程引导,仅在开始时固定画面。 lineart 用于提取人物线条,保证人物整体不跑偏,权重给到 0.6 以控制整体画面输出稳定。 openpose 用于控制人物的姿态、表情和动作,推荐使用 DWpose 处理器,其对面部和手部的识别效果较好。
2025-01-17
MJ中如何精准控制颜色
以下是关于在 Midjourney 中精准控制颜色的一些方法和相关信息: 1. 在使用 MJ 生成兔子贴纸的过程中,关键词中限制了颜色,生成的图片会一种情绪对应一种颜色。若不想让模型把情绪和颜色做挂钩,同一种情绪可多生成几张不同色系的;若需要挂钩,也可反其道而行之。 2. 进行 SD 上色时,正关键词主要前面添加了增加照片质感常用的+mj 生成线稿的关键词调整(去掉 mj 里线稿的关键词,一开始嘴巴效果不好,添加了张开嘴巴等关键词,颜色都是可以单独调整控制)+风格参数。负关键词看自己的效果添加,添加一切不想要的东西。 3. 在 MJ 的公式方面: 角色人物公式:人物姓名(命名)+描述词(重要描述词和人物特征描述词)+风格+官方命令词。 3D 公式:主体+描述词(重要描述词和物体特征描述词)+风格+灯光+官方命令词。 插画公式:主题描述词语+风格(风格名称或画家)+描述+颜色灯光+官方命令。 特定公式: 连续场景变化公式: 角色/场景公式:上传图片(喂图)+人物描写(融入其他场景需要关键词 white background,结合场景后换成 walking in a futuristic cyberpunk city)+场景风格描写+官方命令。 木偶公式:人物图片+场景+人物+动作+风格+官方命令。 等距粘土公式: 等距+物体+max emoji(表情符号),soft(柔和)lighting soft(柔和光线)pastel colors/pastel background(背景)+3Dicon+clay(粘土)+blender 3d+背景颜色=等距粘土物体。 安子布莱斯娃娃/也可以换成其他知道的娃娃名称+灯光/颜色/背景/材质+clay(粘土)+良奈吉友画风/或者其他名人风格=人。 3D 图标公式(未测试,可用):喂图(1~3 张相似的风格)+描述的 icon(和喂图一致的关键词)+颜色(和喂图颜色一致的)+渲染词+官方命令。 通用公式:角色/物体描述+背景描述+灯光风格+官方命令。
2025-01-17
图的角色 用 cref 去控制一致性 风格可以用 sref 去控制
在 Midjourney 中,cref 和 sref 是用于引用图片的功能,它们有以下区别和使用方法: 1. 角色参考(cref): 作用:保持图像角色的一致性。 使用方法:在提示后添加“cref”,紧接着指向人物参考图像的 URL。例如:/imagine prompt beautiful girlcref。可以使用“cw”调整参考图像对生成图像的影响程度,数值范围从 0 到 100。强度 100(“cw 100”)是默认值,会使用面部、头发和衣服,cw 为 0 的话仅保证脸部一致。基础格式为“cref 图片链接,cw 100”。 参考链接: 2. 风格参考(sref): 作用:生成类似风格的图片,保持画风的一致性。 使用方法:在提示后添加“sref”,紧接着指向风格参考图像的 URL。例如:/imagine prompt beautiful girlsref。可以使用“sw”调整参考风格对生成图像的影响程度,数值范围从 0 到 1000。基础格式为“sref 图片链接,sw 100”。 参考链接: 如果想引用一张图,但只是把它作为新图的一部分,可以使用“sref”或“cref”,并通过调整“sw”或“cw”的值来控制引用图像的影响程度。例如:/imagine prompt beautiful girlsrefsw 500。这样,生成的图像将会在保持原有风格的同时,融入一部分引用图像的风格。
2025-01-13
我想找一个能够实现运动控制逻辑的编程助手
目前在 AI 领域中,有一些编程助手可以帮助您实现运动控制逻辑。例如,您可以考虑使用 Python 中的相关库,如 `numpy`、`matplotlib` 等,结合数学和物理知识来构建运动控制模型。另外,一些专门的机器人编程框架和工具,如 ROS(Robot Operating System)也能为您提供支持。但具体选择哪种工具,还需要根据您的具体需求和技术背景来决定。
2024-11-20
控制在智能制造中的应用
以下是关于控制在智能制造中的应用的相关信息: 在智能制造领域,控制技术有着广泛的应用: 1. 预测性维护:利用人工智能预测机器故障,帮助工厂避免停机,提高生产效率。 2. 质量控制:通过人工智能检测产品缺陷,提升产品质量。 3. 供应链管理:借助人工智能优化供应链,提高效率并降低成本。 4. 机器人自动化:运用人工智能控制工业机器人,进一步提高生产效率。 此外,ControlNet 是一种由斯坦福大学张吕敏发布的神经网络模型,它能与预训练的图像扩散模型(如 Stable Diffusion)结合,通过引入额外条件输入来控制 AI 绘画的生成过程。其工作原理是将 Stable Diffusion 模型的权重复制到 ControlNet 的可训练副本中,并使用外部条件向量训练副本,具有训练过程的鲁棒性、避免过度拟合、可在小规模设备训练以及架构兼容性和迁移能力强等优点,不仅用于 AI 绘画,还可用于图像编辑、风格迁移、图像超分辨率等多种计算机视觉任务。
2024-10-28
ai控制骨骼动画
以下是关于 AI 控制骨骼动画的相关信息: 在 Stable Diffusion 中,使用 ControlNet 插件进行姿态约束时,对于国风 3 模型,点击生成可能得到相应姿势,但 AI 识别可能不准确,会出现骨骼错位等问题,需要耐心刷图和调整参数。作者还收集了不同 pose 的骨架图,可在公众号【白马与少年】回复【SD】获取以作人物动作参考。 Tripo AI 的模型详情页提供丰富工具和选项,可对模型进行编辑和下载等操作。模型工具包括收藏、分享、动态旋转或暂停、删除等按钮,在模型区域按住鼠标并拖动可自由旋转模型。编辑工具中的 Auto Rigging 可自动绑定骨骼,后续可在 Blender 里做动画。风格化选项有原始、乐高、像素化、沃罗诺伊图等,Custom 设置可根据特定软件或用途进行定制,Retopologize 提供不同精度的拓扑网格选项,Format 提供多种模型文件格式,选择“Download”可下载模型,使用“Refine”可进一步精修。 晨然在其 AI 作品《Devices》的创作中,工作流是使用 Blender 制作白模动画,导出深度图、线框图帧序列,使用 ComfyUI 进行风格迥异的渲染。他认为 AI 视频与传统工作流制作视频各有优缺点,不是替代关系。AI 内容生成速度快、成本低但不可控、画面粗糙;传统工作流可控性强但慢、成本高。应让 AI 与传统工作流结合,在随机性中寻找可控性,平衡两者以创造新的艺术创作流程。
2024-10-10