普通人研发制作机器狗具有很大的挑战性,需要具备多方面的知识和技能。以下是一些关键的步骤和要点:
首先,要了解具身智能的概念。具身智能是将机器学习算法适配至物理实体,与物理世界交互的人工智能范式。人形机器人是具身智能的代表产品,而机器狗作为一种具身智能体,其研发涉及到“本体”(硬件载体)、“智能”(大模型、语音、图像、控制、导航等算法)、“环境”(本体所交互的物理世界)三要素的高度耦合。
不同的环境需要不同形态的硬件本体来适应。例如,崎岖不平的地面更适用四足机器人(机器狗)。在具身智能体与环境的交互中,智能算法可以通过本体的传感器感知环境,做出决策以操控本体执行动作任务,从而影响环境。
在研发过程中,还需要关注以下方面:
然而,对于普通人来说,要完成机器狗的研发制作,还需要足够开放的环境、大规模预训练数据和强大的基础模型,这是非常困难的。但如果您有强烈的兴趣和决心,可以通过学习相关的专业知识,逐步积累经验来尝试。
具身智能,即“具身+智能”,是将机器学习算法适配至物理实体,从而与物理世界交互的人工智能范式。以ChatGPT为代表的“软件智能体”(或称“离身智能体”)使用大模型通过网页端、手机APP与用户进行交互,能够接受语音、文字、图片、视频的多种模态的用户指令,从而实现感知环境、规划、记忆以及工具调用,执行复杂的任务。在这些基础之上,具身智能体则将大模型嵌入到物理实体上,通过机器配备的传感器与人类交流,强调智能体与物理环境之间的交互。通俗一点讲,就是要给人工智能这个聪明的“头脑”装上一副“身体”。这个“身体”可以是一部手机,可以是一台自动驾驶汽车。而人形机器人则是集各类核心尖端技术于一体的载体,是具身智能的代表产品。具身智能的三要素:本体、智能、环境具身智能的三要素:“本体”,即硬件载体;“智能”,即大模型、语音、图像、控制、导航等算法;“环境”,即本体所交互的物理世界。本体、智能、环境的高度耦合才是高级智能的基础。不同环境下的会有不同形态的硬件本体以适应环境。比如室内平地更适用轮式机器人,崎岖不平的地面更适用四足机器人(机器狗)。在具身智能体与环境的交互中,智能算法可以通过本体的传感器以感知环境,做出决策以操控本体执行动作任务,从而影响环境。在智能算法与环境的交互中还可以通过“交互学习”和拟人化思维去学习和适应环境,从而实现智能的增长。具身智能的四个模块:感知-决策-行动-反馈一个具身智能体的行动可以分为“感知-决策-行动-反馈”四个步骤,分别由四个模块完成,并形成一个闭环。
因此需要足够开放的环境、大规模预训练数据和强大的基础模型。就在不久前,Jim在X上放出了一段演示,他们的团队在模拟环境中训练了一只机器狗,在瑜伽球上保持平衡和行走,然后将其转移到现实世界中,没有任何微调,行走的非常流畅。这个过程中团队用了DrEureka,一个LLM代理,它能编写代码在模拟中训练机器人,弥补仿真到现实的差距,完全自动化了从新技能学习到现实世界部署的全流程。在现实世界AI的另一端,Tesla正计划使用两万个Nvidia H100 GPU进行FSD 12新版本的训练,自家的用于Dojo超级计算机的D1芯片台积电也开始量产。D1由5x5阵列的高性能芯片组成,通过TSMC的InFO_SoW技术互联,通俗理解就是在一个单晶元上刻25个芯片,它们能像单一处理器一样高效工作。Tesla会用这个组成新的Dojo加速计算阵列,能达到100 exaFLOPS的计算能力,将其用来训练未来的FSD和FSD for Optimus。Nvidia和Tesla正在用各种不同的方式让AI进入物理世界,Nvidia提供通用模型和模拟训练环境,让第三方来生产机器人;Tesla则是从训练到制造全部自己来,这就像个人电脑时代的IBM兼容机和Mac一样,到底谁能胜出呢?拭目以待👀配图3.12:Coatue的人形机器人价值对比图
1️⃣🍏Apple Vision Pro即将发售:-预计1月19日开启预购,2月2日正式发售。-售价从3499美元起。🔗https://x.com/xiaohuggg/status/1744367318921069019?s=20 2️⃣🖌️Midjourney面临集体诉讼:-未经许可使用16000名艺术家作品风格训练图像生成AI。-涉及现代艺术家、商业插画师及6岁儿童作品。-艺术家寻求法律援助,对Midjourney提起诉讼。🔗https://x.com/xiaohuggg/status/1744337216548295062?s=20 3️⃣🤖MIT研究团队开发Ddog技术:-通过脑电波控制波士顿动力机器狗。-使用特殊眼镜读取脑电波和眼动。-可辅助ALS、脑瘫和脊髓损伤患者。🔗https://x.com/xiaohuggg/status/1744296052029870124?s=20 4️⃣💡Google推出DiffusionLight:-新技术估算照片中光照条件。-添加铬球模拟真实反射环境,使添加物体与原光照匹配。🔗https://x.com/xiaohuggg/status/1744272205658370554?s=20 5️⃣🧮MATHPILE语料库发布:-29 GB的大规模数学语料库,覆盖K-12至研究生水平。-数据来源包括StackExchange、ProofWiki、arXiv等。-提供详细数据记录和质量注释,可自定义使用。🔗https://x.com/xiaohuggg/status/1744246627865608573?s=20 6️⃣👓XREAL推出AR眼镜XREAL Air 2 Ultra:-配备双3D环境传感器和六自由度功能。-支持高达120Hz刷新率,500尼特亮度。-适用于AR应用开发和空间计算体验。🔗https://x.com/xiaohuggg/status/1744188783908770222?s=20 7️⃣🤖Teachable Machine:Google的机器学习