基于世界模型的具身智能技术原理主要包括以下方面:
这表明Genie能够学习一致的动作空间,这可能适合训练机器人,打造通用化的具身智能。技术揭秘:论文《Genie:Generative Interactive Environments》已公布谷歌DeepMind已经放出了Genie论文。论文地址:https://arxiv.org/pdf/2402.15391.pdf项目主页:https://sites.google.com/view/genie-2024/home?pli=1论文的共同一作多达6人,其中包括华人学者石宇歌(Yuge(Jimmy)Shi)。她目前是谷歌DeepMind研究科学家,2023年获得牛津大学机器学习博士学位。方法介绍Genie架构中的多个组件基于Vision Transformer(ViT)构建而成。值得注意的是,由于Transformer的二次内存成本给视频领域带来了挑战,视频最多可以包含𝑂(10^4)个token。因此,谷歌在所有模型组件中采用内存高效的ST-transformer架构(见图4),以此平衡模型容量与计算约束。Genie包含三个关键组件(如下图所示):1.潜在动作模型(Latent Action Model,LAM),用于推理每对帧之间的潜在动作𝒂;2.视频分词器(Tokenizer),用于将原始视频帧转换为离散token𝒛;3.动态模型,给定潜在动作和过去帧的token,用来预测视频的下一帧。具体而言:潜在动作模型:为了实现可控的视频生成,谷歌将前一帧所采取的动作作为未来帧预测的条件。然而,此类动作标签在互联网的视频中可用的很少,并且获取动作注释的成本会很高。相反,谷歌以完全无监督的方式学习潜在动作(见图5)。
背景:2024.3,机器人创业公司Covariant推出了首个机器人基础模型RFM-1,这是世界上首个基于真实任务数据训练的机器人大模型,也是最接近于解决真实世界任务的机器人大模型。共有80亿参数,是基于文本、图片、视频、机器人动作、传感器信息等多模态数据进行训练的any to any序列模型Covariant:一家人工智能机器人公司,致力于构建一个通用的人工智能,使机器人能够在现实世界中学习和操作,以协助人类完成繁重和劳累的任务,尤其是在仓储和物流行业中。Covariant现阶段的目标通过AI让分拣机器人更好的识别、抓取并放置任何物品,目前产品主要的落地领域为仓储物流、快递分拣自动化。在欧美多个国家落地部署,且稳定持续运行。技术路线:端到端模型(罕见)技术:Any to any:RFM-1将机器人的实际动作也视作Token,其token包括文本、机器人的动作、传感器数据、图片、视频等多种模态,每个模块都有专门的tokenizer进行处理。而RFM-1的操作只有一个——预测下一个token,至于预测的是动作/图像/视频只是取决于token的表征罢了。世界模型:RFM-1对物理世界的理解源自于其学习生成视频的过程:它通过接受初始图像和机器人动作的输入,预测接下来视频帧的变化。这种基于动作条件的视频预测任务使得RFM-1掌握了模拟世界每个瞬间变化的低层次世界模型。该模型不仅能够理解预定的机器人动作,还能通过预测下一个token来推断这些动作是否能够成功执行,以及物料箱内容的变化情况。
李飞飞如何做到这一点,目前仍然不能完全确定,但可以确定的是,行业在2024年一年,在AI 3D生成领域,有了很大的进展。高斯喷射、One-2-3-45等工作,极大地加速了AI 3D生成的进展。而通过对3D物体的生成,所构建出的世界,再进行降维的视频生成,生成的视频,自然符合物理世界的规律,生成的世界也可交互。这些进展对具身智能领域具有革命性意义。和任何AI训练一样,具身智能——也就是机器人的智能,想要变得更聪明,也需要大量数据。传统上,训练机器人需要在现实世界收集大量数据,这个过程极其昂贵且效率低下。这些数据要采集自现实世界,比如使用动作捕捉设备遥操作驱动机器人进行操作,常规的操作是配备一到两人,一个机器人,一套动捕装备和一个计算机,还需要大量的时间投入。而世界模型开启了一个新的可能:在虚拟世界中预训练机器人。这个虚拟世界完全符合物理规律,可以快速生成无限场景,支持并行训练多个任务。这将大幅降低试错成本。这不仅加速了机器人的学习过程,也为实现更复杂的机器人行为打开了可能。我们或许会在接下来几年看到,具身智能突然出现像过去语言模型、视觉模型得到大量数据后出现的跨越式发展。这种进步正在催生新的应用可能:更自然的人机交互界面、更安全的机器人控制系统、更高效的虚拟训练平台。在制造业、虚拟现实、机器人技术等领域,世界模型都可能带来革命性的变革。世界模型也在改变AI理解和交互世界的基本方式,从表面特征的识别提升到深层物理规律的理解,从静态的判断发展到动态的预测,从单一模态扩展到多维度感知。模型开始真正理解和模拟这个世界的运行规律,这或许是通向真正“人形机器人”的关键一步。