Chat with Wiki - 人形机器人如何入门

Answer

要入门人形机器人，以下是一些关键的方面：

了解具身智能的概念：具身智能是将机器学习算法适配至物理实体，从而与物理世界交互的人工智能范式。人形机器人是具身智能的代表产品。
掌握具身智能的要素：包括“本体”（硬件载体）、“智能”（大模型、语音、图像、控制、导航等算法）、“环境”（本体所交互的物理世界），且三者高度耦合是高级智能的基础。
熟悉具身智能的模块：具身智能体的行动分为“感知-决策-行动-反馈”四个步骤，分别由四个模块完成，并形成一个闭环。
关注相关技术进展：例如在 AI 3D 生成领域的进展对具身智能领域具有革命性意义，世界模型开启了在虚拟世界中预训练机器人的新可能，大幅降低试错成本，加速学习过程，为实现更复杂的机器人行为打开可能。
研究具体案例：如哥伦比亚大学创意机器实验室开发的人形机器人头，其能精准模拟人类面部表情，使用 AI 模型预测和回应人类表情，自我监督学习生成表情。

Content generated by AI large model, please carefully verify (powered by aily)

References

码观 | 共识与非共识：从模型到应用，2024 AI 趋势回首与展望

李飞飞如何做到这一点，目前仍然不能完全确定，但可以确定的是，行业在2024年一年，在AI 3D生成领域，有了很大的进展。高斯喷射、One-2-3-45等工作，极大地加速了AI 3D生成的进展。而通过对3D物体的生成，所构建出的世界，再进行降维的视频生成，生成的视频，自然符合物理世界的规律，生成的世界也可交互。这些进展对具身智能领域具有革命性意义。和任何AI训练一样，具身智能——也就是机器人的智能，想要变得更聪明，也需要大量数据。传统上，训练机器人需要在现实世界收集大量数据，这个过程极其昂贵且效率低下。这些数据要采集自现实世界，比如使用动作捕捉设备遥操作驱动机器人进行操作，常规的操作是配备一到两人，一个机器人，一套动捕装备和一个计算机，还需要大量的时间投入。而世界模型开启了一个新的可能：在虚拟世界中预训练机器人。这个虚拟世界完全符合物理规律，可以快速生成无限场景，支持并行训练多个任务。这将大幅降低试错成本。这不仅加速了机器人的学习过程，也为实现更复杂的机器人行为打开了可能。我们或许会在接下来几年看到，具身智能突然出现像过去语言模型、视觉模型得到大量数据后出现的跨越式发展。这种进步正在催生新的应用可能：更自然的人机交互界面、更安全的机器人控制系统、更高效的虚拟训练平台。在制造业、虚拟现实、机器人技术等领域，世界模型都可能带来革命性的变革。世界模型也在改变AI理解和交互世界的基本方式，从表面特征的识别提升到深层物理规律的理解，从静态的判断发展到动态的预测，从单一模态扩展到多维度感知。模型开始真正理解和模拟这个世界的运行规律，这或许是通向真正“人形机器人”的关键一步。

一篇具身智能的最新全面综述！（上）

具身智能，即“具身+智能”，是将机器学习算法适配至物理实体，从而与物理世界交互的人工智能范式。以ChatGPT为代表的“软件智能体”（或称“离身智能体”）使用大模型通过网页端、手机APP与用户进行交互，能够接受语音、文字、图片、视频的多种模态的用户指令，从而实现感知环境、规划、记忆以及工具调用，执行复杂的任务。在这些基础之上，具身智能体则将大模型嵌入到物理实体上，通过机器配备的传感器与人类交流，强调智能体与物理环境之间的交互。通俗一点讲，就是要给人工智能这个聪明的“头脑”装上一副“身体”。这个“身体”可以是一部手机，可以是一台自动驾驶汽车。而人形机器人则是集各类核心尖端技术于一体的载体，是具身智能的代表产品。具身智能的三要素：本体、智能、环境具身智能的三要素：“本体”，即硬件载体；“智能”，即大模型、语音、图像、控制、导航等算法；“环境”，即本体所交互的物理世界。本体、智能、环境的高度耦合才是高级智能的基础。不同环境下的会有不同形态的硬件本体以适应环境。比如室内平地更适用轮式机器人，崎岖不平的地面更适用四足机器人（机器狗）。在具身智能体与环境的交互中，智能算法可以通过本体的传感器以感知环境，做出决策以操控本体执行动作任务，从而影响环境。在智能算法与环境的交互中还可以通过“交互学习”和拟人化思维去学习和适应环境，从而实现智能的增长。具身智能的四个模块：感知-决策-行动-反馈一个具身智能体的行动可以分为“感知-决策-行动-反馈”四个步骤，分别由四个模块完成，并形成一个闭环。

XiaoHu.AI日报

🔗https://x.com/imxiaohu/status/1774264556497588410?s=205⃣️🤖Emo-哥伦比亚大学创意机器实验室开发的人形机器人头：精准模拟人类面部表情，具有高分辨率眼部跟踪。使用AI模型预测和回应人类表情，自我监督学习生成表情。🔗https://engineering.columbia.edu/news/robot-can-you-say-cheese🔗https://x.com/imxiaohu/status/1774062241098465487?s=206⃣️📸Living Images-自动优化网站图片：输入网址，自动改进图片吸引力，包括A/B测试。旨在提升用户行动，如点击、购买或注册。🔗http://coframe.ai🔗http://img.coframe.ai🔗https://x.com/imxiaohu/status/1773914481262997541?s=207⃣️🌌微软和OpenAI计划建造“星际之门”AI超级计算机：预计成本1000亿美元，旨在提供强大AI计算能力。将建造数百万服务器芯片的数据中心。🔗https://theinformation.com/articles/microsoft-and-openai-plot-100-billion-stargate-ai-supercomputer🔗https://x.com/imxiaohu/status/1773909540935029025?s=208⃣️🗣️OpenAI发布语音生成模型Voice Engine：根据文本和15秒音频样本生成自然语音。支持情感丰富的声音生成，多语种和保留口音。