目前关于 ChatGPT 智能体的迁移,相关研究和讨论表明:在较小规模的模型如 GPT-2 级别上做的消融实验中,迁移效果不明显,但不能简单推断在 GPT-4 级别等更大规模的模型上也会如此。大型模型可能学习到更好的共同表征并进行正确的计算处理。模型规模增加本质上提高了找到正确函数的机会,像混合模型或乘法权重更新算法就是通过加权组合的“专家”系统来工作。
同时,OpenAI 会陆续更新 ChatGPT 应用,使其具备 Assistant Agent 能力。具身智能是将机器学习算法适配至物理实体与物理世界交互的人工智能范式,以 ChatGPT 为代表的“软件智能体”通过网页端、手机 APP 与用户交互,具身智能体则将大模型嵌入物理实体,通过传感器与人类交流,强调与物理环境的交互,其行动分为感知-决策-行动-反馈四个步骤。不同环境下有不同形态的硬件本体适应,智能算法可通过本体传感器感知环境、做出决策、操控本体执行动作任务并影响环境,还能通过交互学习和拟人化思维适应环境实现智能增长。
Dwarkesh Pa tel:模型的智能程度随着规模增加会不断提高,如果在GPT-2级别的模型上做消融实验,最后发现迁移效果不明显,这种结果能作为GPT-4级别的模型做类似迁移效果的参考吗?John Schulman:不能简单地推断说在GPT-2规模上转移效果不佳,那在更大规模的模型上也会如此。大型模型也许能够学习到更好的共同表征(shared representation),并且学习进行正确的计算处理,而较小的模型可能更多地依赖于记忆。Dwarkesh Pa tel:为什么更大规模的模型即使在用相同或更少的数据做训练时,智能水平仍然很高?John Schulman:我觉得还没人能给出一个完美的解释,告诉我们模型参数数量增加时的scaling law什么样,我也不确定有没有关于这个问题最合适的思维框架。更大的模型肯定会有更大的容量,理论上可以达到更低的损失。我可以简单解释一下为什么更大的模型样本效率更高。可以把模型想象为由许多不同的计算单元或“电路”组成的集合,模型的最终输出是这些并行计算电路结果的加权组合。在残差网络中,增加模型的“宽度”(即层中的单元数或通道数)可以类似于增加“深度”(层数),如果模型更“宽”,也就是有更多的计算单元,这些单元可以并行地学习和处理不同的信息,那就增加了至少有一个计算单元正确猜测或解决问题的概率,最终达到提高模型整体性能的目的。像混合模型(mixture models)或乘法权重更新算法(multiplicative weight update algorithms)就是这个工作原理,一般是由一个加权组合的“专家”(拾象注:指模型中的不同计算单元或模块)系统组成,通过学习到的“门控”机制(gating)来决定不同专家的输出如何组合。我刚才的说法可能不是很准确,但你可以理解为类似的概念。模型规模增加本质上就是提高了找到正确函数的机会。
很明显OpenAI是有计划的抢先发布,因为Google在第二天的I/O 2024大会上准备宣布他们最新的研究项目Project Astra,一个类似GPT-4o全模态模型,结果研究团队拿手机精心录制的与环境实时交互的视频,让OpenAI给提前一天全部展示了,而且功能更强大,完成度更高。OpenAI会在几个月内陆续更新ChatGPT应用,通过GPT-4o让其具备Assistant Agent能力,一个能够像人类一样互动的“数字形态”全能助理;Google也计划在今年内推出Gemini Live支持类似功能,我们可以把这种能沟通还能感知环境的AI称之为智能体(Intelligent Agent)。除了端到端的多模态之外,另一个重要的特点就是实时性,之前所有的交互都是回合对话式,包括API的调用;现在我们要从文字语音聊天升级到视频直播了,智能体保持一直在线。可以想像,用流媒体的形式来消耗Token,这对算力的开销得有多大,所以大家必须保持模型能力不变的情况下缩小参数规模,升级架构来提升性能;最好让终端也参与进来分担一部分模型的计算量。让科技变简单,是技术民主化最重要的一个趋势,没有人能抵挡住这种毫无机械感、完全类人化的交互方式。用这样的思路,可以设计从未有过的硬件产品,也能重新设计现有的产品,例如多年以前的Google Glass就可以因此而复活了;因为语音交互的流畅,智能体还能用手机之外的设备来实现视觉感知,那么手机的设计也会因此而进化,触摸交互更简单,在很多情况下,都只需要放在口袋里,给你的智能体提供本地算力。
具身智能,即“具身+智能”,是将机器学习算法适配至物理实体,从而与物理世界交互的人工智能范式。以ChatGPT为代表的“软件智能体”(或称“离身智能体”)使用大模型通过网页端、手机APP与用户进行交互,能够接受语音、文字、图片、视频的多种模态的用户指令,从而实现感知环境、规划、记忆以及工具调用,执行复杂的任务。在这些基础之上,具身智能体则将大模型嵌入到物理实体上,通过机器配备的传感器与人类交流,强调智能体与物理环境之间的交互。通俗一点讲,就是要给人工智能这个聪明的“头脑”装上一副“身体”。这个“身体”可以是一部手机,可以是一台自动驾驶汽车。而人形机器人则是集各类核心尖端技术于一体的载体,是具身智能的代表产品。具身智能的三要素:本体、智能、环境具身智能的三要素:“本体”,即硬件载体;“智能”,即大模型、语音、图像、控制、导航等算法;“环境”,即本体所交互的物理世界。本体、智能、环境的高度耦合才是高级智能的基础。不同环境下的会有不同形态的硬件本体以适应环境。比如室内平地更适用轮式机器人,崎岖不平的地面更适用四足机器人(机器狗)。在具身智能体与环境的交互中,智能算法可以通过本体的传感器以感知环境,做出决策以操控本体执行动作任务,从而影响环境。在智能算法与环境的交互中还可以通过“交互学习”和拟人化思维去学习和适应环境,从而实现智能的增长。具身智能的四个模块:感知-决策-行动-反馈一个具身智能体的行动可以分为“感知-决策-行动-反馈”四个步骤,分别由四个模块完成,并形成一个闭环。感知模块