基于多模态大模型的具身智能技术原理主要包括以下方面: 决策模块是具身智能系统的核心,负责接收感知模块的环境信息,进行任务规划和推理分析,以指导行动模块生成动作。早期决策模块主要依赖人工编程规则和专用任务算法,而基于近端策略优化算法和 Q-learning 算法的强化学习方法在具身智能自主导航等任务中展现出更好的决策灵活性,但在复杂环境适应能力等方面存在局限。 大模型的出现极大增强了具身智能体的智能程度,提高了环境感知、语音交互和任务决策能力。具身智能体的大模型是 AIGA,调用机械臂、相机等身体部件,其发展方向是视觉语言动作模型(VLA)和视觉语言导航模型(VLN)。 VLA 输入语言、图像或视频流,输出语言和动作,在统一框架内融合互联网、物理世界和运动信息,实现从自然语言指令到可执行动作指令的直接转换。 VLN 输入语言、图像或视频流,输出语言和移动轨迹,用于统一指令输入框架,使大模型直接生成运动方向、目标物体位置等操作信息。 Google Deepmind 从大模型入手打造具身智能,率先提出 Robotics Transformer 系列模型,如 RT-1 等,并不断升级。RT-1 基于模仿学习中的行为克隆学习范式,输入短的图像序列和指令,输出每个时间步的动作。随着数据量增加,有从分层模型过渡到端到端模型的趋势。 北大 HMI Lab 团队构建了全新的 RoboMamba 多模态大模型,使其具备视觉常识任务和机器人相关任务的推理能力。 在具身智能应用中,更强调“动态”学习方式,如强化学习、模拟学习等,让机器人与环境不断交互学习,通过奖励机制优化行为,获得最优决策策略,摒弃传统控制论算法物理建模的弊端。
决策模块是整个具身智能系统的核心,它负责接收来自感知模块的环境信息,进行任务规划和推理分析,以指导行动模块生成动作。在早期的技术发展中,决策模块主要依赖于人工编程的规则判断和专用任务的算法设计。然而,这些定制化的算法很难应对动态变化的环境和未知情况。基于近端策略优化算法(Proximal Policy Optimization,PPO)和Q-learning算法的强化学习方法在具身智能自主导航、避障和多目标收集等任务中展现出更好的决策灵活性。然而,这些方法在复杂环境的适应能力、决策准确度和效率方面仍存在局限。大模型的涌现,极大地增强了具身智能体的智能程度,大幅提高了环境感知、语音交互和任务决策的能力。相较于“软件智能体”的AIGC(AI-generated Content),即由大模型生成文字、图片等内容,调用的工具是函数;具身智能体的大模型是AIGA(AI-generated Actions),即由大模型生成动作,调用的工具是机械臂、相机等身体部件。在多模态的视觉语言模型(Vision Language Model,VLM)的基础上,具身智能的大模型的发展方向是视觉语言动作模型(Vision Language Action Model,VLA)和视觉语言导航模型(Vision Language Navigation Model,VLN)。VLA:输入是语言、图像或视频流,输出是语言和动作。在一个统一的框架内融合了互联网、物理世界以及运动信息,从而实现了从自然语言指令到可执行动作指令的直接转换。VLN:输入是语言、图像或视频流,输出是语言和移动轨迹。针对导航任务中的语言描述、视觉观测对象以及运动轨迹等多个阶段的任务需求,VLN用于统一的指令输入框架,使得大模型可以直接生成运动方向、目标物体位置等操作信息。
背景-mp.weixin.qq.comGoogle Deepmind从大模型入手打造具身智能,其率先提出Robotics Transformer(即RT系列)系列模型。后续又提出Saycan和PALM-E模型等等,并把这些整合入RT系列模型。2022年12月,谷歌基于模仿学习中行为克隆学习范式,把Transformer应用到机器人的操纵任务上,提出了RT-1模型;2023年7月,基于RT-1和PaLM-E,升级得到了融合视觉、语言、动作能力的端到端多模态大模型(VLA)RT-2;2023年10月,基于22种不同类型机器人真实场景的数据集Open X-Embodiment进一步训练,推出能力更强的RT-X模型;2024年3月,Google推出RT-H。技术路线:RT-1是分层模型,直到RT2成为一个端到端的模型。可以看到Google的研究成果有一个聚合的趋势。随着数据量的增加,从分层模型过渡到端到端模型也许是一个自然趋势。技术和意义RT-1:基于模仿学习中的行为克隆学习范式,输入一段短的图像序列和一个指令,输出每个时间步的一个动作,历时17个月基于13个机器人采集了130k episodes以及超过700个任务的数据集,使机器人具备了一定的泛化性,能够发现结构相似任务之间的模式,且应用到新任务上。RT-1的输入由图片序列、自然语言指令构成,输出由机械臂运动的目标位姿(Toll,pitch gaw,gripper stαtus)、基座的运动、模式转换指令构成。
北大HMI Lab团队将视觉编码器与高效的状态空间语言模型集成,构建了全新的RoboMamba多模态大模型,使其具备视觉常识任务和机器人相关任务的推理能力,并都取得了先进的性能表现。论文链接:https://arxiv.org/abs/2406.04339分层架构与端到端对比分层架构的优点:绝大多数人形机器人企业采用传统X86+AI芯片的具身智能控制平台。该平台虽然在一定程度上能够实现机器人的运动控制和智能决策,但仍然存在一些显著的缺点。c.机器学习技术流派那么,上述具身智能解决方案的底层技术是什么呢?首先,传统机器学习的技术是对一套设计好的神经网络系统输入大量的数据(包括图片/文本/图片-标签对等等),让神经网络自动的进行迭代,这种学习技术,我们可以称之为“静态”机器学习方案,在此不多赘述。然而,在具身智能的应用中,我们更强调一种“动态”的学习方式(包括强化学习/模拟学习等),即让机器人和环境不断交互和学习,获得新技能以适应环境,从而完成复杂任务,这和人类的学习方式更接近。传统控制论算法需要对整个系统进行物理建模,但是在某些复杂的场景无法做到精确建模;而这种动态的Robot learning方案通过与环境的交互来学习,并通过奖励机制来优化行为,获得最优的决策策略(policy),摒弃了传统方法物理建模的弊端。接下来简单介绍一下动态机器学习方案的发展思路。第一阶段:传统控制算法结合强化学习