具身智能的软硬件解决方案包括以下方面:
大脑-智能算法:感知/分析层的核心。通过视觉-语言理解模型感知环境、接收理解任务并进行规划决策,最终输出具体任务指令小脑-运动控制算法:动作层的核心。将动作视为类似语言的一种模态,理解交互物品及机器本体的姿态和运动状态,并将语义理解转化为动作。最终将大脑的任务指令拆解、输出为针对各硬件部件的控制指令。整机硬件方案:基于下游场景需求设计的运动、感知、计算和通信硬件方案。值得一提的是,具身智能厂商有从软件到硬件全流程自主控制的需求,倾向于自己制作机体,而非简单的向外采购。考虑因素有二:具身智能的机体和数据模式都没有实现标准统一,厂商用来训练智能体的数据往往和机体的自身构造存在紧密联系,例如眼睛之间的距离、电机的数量等等,都收集到的数据直接相关,也直接影响到智能体的训练过程。同时也要考虑二级供应商是否成熟,做整机的利润是否足够高。部分足够强大的厂商(如Tesla)甚至具备绕过二级供应商,制作更底层的电机、传感器的能力,对于这类厂商来说,软硬件一体化制造能带来更高的利润空间。两类智能:认知智能和物理智能认知智能涉及思考、规划和决策能力完全由大脑驱动物理智能指机器人的感知和与环境的运动互动能力其中,感知环节由大脑侧的识别算法实现,行动环节由小脑侧的运动控制算法和硬件配合完成在具身智能的感知-规划-决策-行动循环中,认知智能促使机器进行决策规划,物理智能协助行动;行动结果反馈迭代帮助具身智能更好的决策和行动。
两大发展趋势:人形化:从目前开发的人形机器人进展及对比中我们不难发现,在未来趋势上,人形机器人一致以外形向人类细部特征靠拢,功能具备真实人类运动,灵活、环境判断能力为主。成本下降显著:人形机器人成本及售价呈下降趋势。伴随人形机器人技术发展,为迎合市场应用及商业化需求,售价也从数百万美元降至数万美元,主要原因在于核心零部件成本降低。【智谱清言智能体推荐】了解更多关于机器人,点击互动👇3、构成三类组成元素:大脑(意图理解&环境感知&规划决策)、小脑(运动控制&语义信息理解转化为动作)、整机硬件方案
1、技术层级a.任务层级从具身智能所面临的任务层级来讲,可细分为五个层面,任务级、技能级、动作级、基元级、伺服级。通常我们仅关注前四个级别,第五个级别已经在机器人学中得到了完善的处理。b.解决方案层级从厂商对于具身智能的具体解决方案来看,通常可拆分为大脑+小脑两个层级大脑:负责人机交互&规划决策。感知-任务级-技能级-动作级-基元级小脑:负责运动控制&语义信息理解转化为动作。感知-任务级-技能级-动作级-基元级对于大模型厂商,我们主要赋能具身智能大脑侧,辅助小脑侧进行模型训练大脑侧具身智能的大脑负责人机交互,能通过视觉在语义层面理解场景,理解long-horizon任务,对任务进行分解以及规划,负责高层次的决策。近年来大模型的迅速发展对大脑有了长足的促进,大脑的成熟度较高,也不太存在数据的匮乏问题,因为大部分能力可以从已有人类数据中习得(如语言数据)。对于具身机器人而言,大脑的长期发展高度依赖于大模型的进展,尤其是多模态大模型。2024年3月,有鹿机器人发布了基于LPLM-10B的软硬件结合产品Master 2000,一款即插即用的通用具身大脑,以通用大脑+专业设备的积木组合,帮助客户解决在智能化升级研发中投入产出比低的痛点。网址:https://mp.weixin.qq.com/s/SJ-OJBzbfOgd8SBcxED3ZQ