世界模型方面的相关信息如下:
一键生成可玩游戏世界。Sora问世才不到两个星期,谷歌的世界模型也来了,能力看起来更强大:它生成的虚拟世界「自主可控」。[1111.mp4](https://bytedance.feishu.cn/space/api/box/stream/download/all/MT2EbuvU1ofonMxxd3JcFj8znvg?allow_redirect=1)刚刚,谷歌定义了生成式AI的全新范式——生成式交互环境(Genie,Generative Interactive Environments)。Genie是一个110亿参数的基础世界模型,可以通过单张图像提示生成可玩的交互式环境。群友写了一篇:[面向低年级小学生的Genie模型科普文章](https://waytoagi.feishu.cn/wiki/FjwPwe4lti4nOfk5GLVcok2OnBe)我们可以用它从未见过的图像进行提示,然后与自己想象中的虚拟世界进行互动。不管是合成图像、照片甚至手绘草图,Genie都可以从中生成无穷无尽的可玩世界。Genie由三个部分组成:一个潜在动作模型,用于推断每对帧之间的潜在动作;一个视频tokenizer,用于将原始视频帧转换为离散token;一个动态模型,用于在给定潜在动作和过去帧token的情况下,预测视频的下一帧。看到这项技术发布,很多人表示:谷歌又要来领导AI技术了。谷歌还提出,Genie学到的潜在动作可以转移到真实的人类设计的环境中。在这个假设基础上,谷歌针对机器人视频训练了一个Genie模型,作为机器人领域潜在世界模型应用的概念验证。被颠覆的游戏、设计、XR、机器人行业……我们可以从四个维度来理解Genie的革命性意义。首先,Genie可以在没有动作标签时学习控制。
润米咨询创始人刘润1、用Sora生成的视频,并不总是能“咬就会有痕”。它“有时”也会出错。但这已经很厉害,很可怕了。因为“先记忆,再预测”,这种理解世界的方式,是人类理解世界的方式。这种方式有个名字,叫:世界模型。2、什么是,世界模型?我举个例子。3、你的“记忆”中,知道一杯咖啡的重量。所以当你想拿起一杯咖啡时,大脑准确“预测”了应该用多大的力。于是,杯子被顺利拿起来。你都没意识到。但如果,杯子里碰巧没有咖啡呢?你就会用很大的力,去拿很轻的杯子。你的手,立刻能感觉到不对。然后,你的“记忆”里会加上一条:杯子也有可能是空的。于是,下次再“预测”,就不会错了。你做的事情越多,大脑里就会形成越复杂的世界模型,用于更准确地预测这个世界的反应。这就是人类与世界交互的方式:世界模型。3、关于世界模型,如果感兴趣,我建议你读一本书,叫《千脑智能》。4、回到Sora。Sora的技术文档里有一句话:Our results suggest that scaling video generation models is a promising path towards building general purpose simulators of the physical world.翻译成中文就是:我们的结果表明,扩展视频生成模型是向着构建通用物理世界模拟器迈进的有希望的路径。5、什么意思?意思就是说,OpenAI最终想做的,其实不是一个“文生视频”的工具,而是一个通用的“物理世界模拟器”。也就是世界模型,为真实世界建模。6、而Sora,只是验证了,这条道路可行的一个里程碑。
游戏。1、模型训练:通过在没有动作标签的视频上训练一个较小的2.5B模型,Genie展示了它能够学习一致的动作空间。这种能力说明Genie可以识别和复制具有相同潜在动作序列的轨迹之间的相似行为,这对于训练具有身体实体的通用AI代理尤其重要。2、模拟可变形物体:Genie还能够模拟可变形物体,这是一个对于人类设计的模拟器来说极具挑战性的任务。模拟可变形物体的能力表明该系统能够从数据中学习并再现这些复杂的物理行为。这意味着Genie不仅能够生成静态的或者简单动态的环境,还能创建出在物理作用下表现出真实反应的复杂模型。例如,它可以模拟衣物在风中飘动的样子,或者一个橡胶球被压扁后恢复原状的过程。3、推动AI发展:Genie不仅引入了从图像或文本生成完整交互式世界的新时代,而且被视为未来训练通用AI代理的催化剂。它的出现可能会极大地推动AI技术的发展,特别是在创建自适应、多功能的AI方面。项目地址:[https://sites.google.com/view/genie-2024/](https://t.co/nPciFufbQE)