Chat with Wiki - 普通人怎么研发制作机器狗？

Answer

普通人研发制作机器狗具有很大的挑战性，需要具备多方面的知识和技能。以下是一些关键的步骤和要点：

首先，要了解具身智能的概念。具身智能是将机器学习算法适配至物理实体，与物理世界交互的人工智能范式。人形机器人是具身智能的代表产品，而机器狗作为一种具身智能体，其研发涉及到“本体”（硬件载体）、“智能”（大模型、语音、图像、控制、导航等算法）、“环境”（本体所交互的物理世界）三要素的高度耦合。

不同的环境需要不同形态的硬件本体来适应。例如，崎岖不平的地面更适用四足机器人（机器狗）。在具身智能体与环境的交互中，智能算法可以通过本体的传感器感知环境，做出决策以操控本体执行动作任务，从而影响环境。

在研发过程中，还需要关注以下方面：

感知-决策-行动-反馈的四个模块，形成一个闭环，以实现机器狗的有效行动。
模拟训练环境的运用，例如像 Jim 团队在模拟环境中训练机器狗，并通过特定的代理和技术，将其转移到现实世界中。
脑电波控制技术，如 MIT 研究团队通过特殊眼镜读取脑电波和眼动来控制波士顿动力机器狗，这为控制方式提供了新的思路。

然而，对于普通人来说，要完成机器狗的研发制作，还需要足够开放的环境、大规模预训练数据和强大的基础模型，这是非常困难的。但如果您有强烈的兴趣和决心，可以通过学习相关的专业知识，逐步积累经验来尝试。

Content generated by AI large model, please carefully verify (powered by aily)

References

一篇具身智能的最新全面综述！（上）

具身智能，即“具身+智能”，是将机器学习算法适配至物理实体，从而与物理世界交互的人工智能范式。以ChatGPT为代表的“软件智能体”（或称“离身智能体”）使用大模型通过网页端、手机APP与用户进行交互，能够接受语音、文字、图片、视频的多种模态的用户指令，从而实现感知环境、规划、记忆以及工具调用，执行复杂的任务。在这些基础之上，具身智能体则将大模型嵌入到物理实体上，通过机器配备的传感器与人类交流，强调智能体与物理环境之间的交互。通俗一点讲，就是要给人工智能这个聪明的“头脑”装上一副“身体”。这个“身体”可以是一部手机，可以是一台自动驾驶汽车。而人形机器人则是集各类核心尖端技术于一体的载体，是具身智能的代表产品。具身智能的三要素：本体、智能、环境具身智能的三要素：“本体”，即硬件载体；“智能”，即大模型、语音、图像、控制、导航等算法；“环境”，即本体所交互的物理世界。本体、智能、环境的高度耦合才是高级智能的基础。不同环境下的会有不同形态的硬件本体以适应环境。比如室内平地更适用轮式机器人，崎岖不平的地面更适用四足机器人（机器狗）。在具身智能体与环境的交互中，智能算法可以通过本体的传感器以感知环境，做出决策以操控本体执行动作任务，从而影响环境。在智能算法与环境的交互中还可以通过“交互学习”和拟人化思维去学习和适应环境，从而实现智能的增长。具身智能的四个模块：感知-决策-行动-反馈一个具身智能体的行动可以分为“感知-决策-行动-反馈”四个步骤，分别由四个模块完成，并形成一个闭环。

智变时代 / 全面理解机器智能与生成式 AI 加速的新工业革命

因此需要足够开放的环境、大规模预训练数据和强大的基础模型。就在不久前，Jim在X上放出了一段演示，他们的团队在模拟环境中训练了一只机器狗，在瑜伽球上保持平衡和行走，然后将其转移到现实世界中，没有任何微调，行走的非常流畅。这个过程中团队用了DrEureka，一个LLM代理，它能编写代码在模拟中训练机器人，弥补仿真到现实的差距，完全自动化了从新技能学习到现实世界部署的全流程。在现实世界AI的另一端，Tesla正计划使用两万个Nvidia H100 GPU进行FSD 12新版本的训练，自家的用于Dojo超级计算机的D1芯片台积电也开始量产。D1由5x5阵列的高性能芯片组成，通过TSMC的InFO_SoW技术互联，通俗理解就是在一个单晶元上刻25个芯片，它们能像单一处理器一样高效工作。Tesla会用这个组成新的Dojo加速计算阵列，能达到100 exaFLOPS的计算能力，将其用来训练未来的FSD和FSD for Optimus。Nvidia和Tesla正在用各种不同的方式让AI进入物理世界，Nvidia提供通用模型和模拟训练环境，让第三方来生产机器人；Tesla则是从训练到制造全部自己来，这就像个人电脑时代的IBM兼容机和Mac一样，到底谁能胜出呢？拭目以待👀配图3.12：Coatue的人形机器人价值对比图

XiaoHu.AI日报

1️⃣🍏Apple Vision Pro即将发售:-预计1月19日开启预购,2月2日正式发售。-售价从3499美元起。🔗https://x.com/xiaohuggg/status/1744367318921069019?s=20 2️⃣🖌️Midjourney面临集体诉讼:-未经许可使用16000名艺术家作品风格训练图像生成AI。-涉及现代艺术家、商业插画师及6岁儿童作品。-艺术家寻求法律援助,对Midjourney提起诉讼。🔗https://x.com/xiaohuggg/status/1744337216548295062?s=20 3️⃣🤖MIT研究团队开发Ddog技术:-通过脑电波控制波士顿动力机器狗。-使用特殊眼镜读取脑电波和眼动。-可辅助ALS、脑瘫和脊髓损伤患者。🔗https://x.com/xiaohuggg/status/1744296052029870124?s=20 4️⃣💡Google推出DiffusionLight:-新技术估算照片中光照条件。-添加铬球模拟真实反射环境,使添加物体与原光照匹配。🔗https://x.com/xiaohuggg/status/1744272205658370554?s=20 5️⃣🧮MATHPILE语料库发布:-29 GB的大规模数学语料库,覆盖K-12至研究生水平。-数据来源包括StackExchange、ProofWiki、arXiv等。-提供详细数据记录和质量注释,可自定义使用。🔗https://x.com/xiaohuggg/status/1744246627865608573?s=20 6️⃣👓XREAL推出AR眼镜XREAL Air 2 Ultra:-配备双3D环境传感器和六自由度功能。-支持高达120Hz刷新率,500尼特亮度。-适用于AR应用开发和空间计算体验。🔗https://x.com/xiaohuggg/status/1744188783908770222?s=20 7️⃣🤖Teachable Machine:Google的机器学习