要入门人形机器人,以下是一些关键的方面:
李飞飞如何做到这一点,目前仍然不能完全确定,但可以确定的是,行业在2024年一年,在AI 3D生成领域,有了很大的进展。高斯喷射、One-2-3-45等工作,极大地加速了AI 3D生成的进展。而通过对3D物体的生成,所构建出的世界,再进行降维的视频生成,生成的视频,自然符合物理世界的规律,生成的世界也可交互。这些进展对具身智能领域具有革命性意义。和任何AI训练一样,具身智能——也就是机器人的智能,想要变得更聪明,也需要大量数据。传统上,训练机器人需要在现实世界收集大量数据,这个过程极其昂贵且效率低下。这些数据要采集自现实世界,比如使用动作捕捉设备遥操作驱动机器人进行操作,常规的操作是配备一到两人,一个机器人,一套动捕装备和一个计算机,还需要大量的时间投入。而世界模型开启了一个新的可能:在虚拟世界中预训练机器人。这个虚拟世界完全符合物理规律,可以快速生成无限场景,支持并行训练多个任务。这将大幅降低试错成本。这不仅加速了机器人的学习过程,也为实现更复杂的机器人行为打开了可能。我们或许会在接下来几年看到,具身智能突然出现像过去语言模型、视觉模型得到大量数据后出现的跨越式发展。这种进步正在催生新的应用可能:更自然的人机交互界面、更安全的机器人控制系统、更高效的虚拟训练平台。在制造业、虚拟现实、机器人技术等领域,世界模型都可能带来革命性的变革。世界模型也在改变AI理解和交互世界的基本方式,从表面特征的识别提升到深层物理规律的理解,从静态的判断发展到动态的预测,从单一模态扩展到多维度感知。模型开始真正理解和模拟这个世界的运行规律,这或许是通向真正“人形机器人”的关键一步。
具身智能,即“具身+智能”,是将机器学习算法适配至物理实体,从而与物理世界交互的人工智能范式。以ChatGPT为代表的“软件智能体”(或称“离身智能体”)使用大模型通过网页端、手机APP与用户进行交互,能够接受语音、文字、图片、视频的多种模态的用户指令,从而实现感知环境、规划、记忆以及工具调用,执行复杂的任务。在这些基础之上,具身智能体则将大模型嵌入到物理实体上,通过机器配备的传感器与人类交流,强调智能体与物理环境之间的交互。通俗一点讲,就是要给人工智能这个聪明的“头脑”装上一副“身体”。这个“身体”可以是一部手机,可以是一台自动驾驶汽车。而人形机器人则是集各类核心尖端技术于一体的载体,是具身智能的代表产品。具身智能的三要素:本体、智能、环境具身智能的三要素:“本体”,即硬件载体;“智能”,即大模型、语音、图像、控制、导航等算法;“环境”,即本体所交互的物理世界。本体、智能、环境的高度耦合才是高级智能的基础。不同环境下的会有不同形态的硬件本体以适应环境。比如室内平地更适用轮式机器人,崎岖不平的地面更适用四足机器人(机器狗)。在具身智能体与环境的交互中,智能算法可以通过本体的传感器以感知环境,做出决策以操控本体执行动作任务,从而影响环境。在智能算法与环境的交互中还可以通过“交互学习”和拟人化思维去学习和适应环境,从而实现智能的增长。具身智能的四个模块:感知-决策-行动-反馈一个具身智能体的行动可以分为“感知-决策-行动-反馈”四个步骤,分别由四个模块完成,并形成一个闭环。
🔗https://x.com/imxiaohu/status/1774264556497588410?s=205⃣️🤖Emo-哥伦比亚大学创意机器实验室开发的人形机器人头:精准模拟人类面部表情,具有高分辨率眼部跟踪。使用AI模型预测和回应人类表情,自我监督学习生成表情。🔗https://engineering.columbia.edu/news/robot-can-you-say-cheese🔗https://x.com/imxiaohu/status/1774062241098465487?s=206⃣️📸Living Images-自动优化网站图片:输入网址,自动改进图片吸引力,包括A/B测试。旨在提升用户行动,如点击、购买或注册。🔗http://coframe.ai🔗http://img.coframe.ai🔗https://x.com/imxiaohu/status/1773914481262997541?s=207⃣️🌌微软和OpenAI计划建造“星际之门”AI超级计算机:预计成本1000亿美元,旨在提供强大AI计算能力。将建造数百万服务器芯片的数据中心。🔗https://theinformation.com/articles/microsoft-and-openai-plot-100-billion-stargate-ai-supercomputer🔗https://x.com/imxiaohu/status/1773909540935029025?s=208⃣️🗣️OpenAI发布语音生成模型Voice Engine:根据文本和15秒音频样本生成自然语音。支持情感丰富的声音生成,多语种和保留口音。