Scaling Law(规模定律)指的是在模型预训练中,只要三个关键因素——模型大小、数据量、训练时间(计算量)不断增长,模型性能就能大斜率指数级爆发式提升。足够的规模带来——“涌现”,即自发地产生复杂智能,完成复杂问题的推理、并形成非同分布下的泛化性提升。
2024 年整年,一个争论笼罩着 AI 界——Scaling Law 是正确的,但在现实中,Scaling Law 是不是已经触及天花板。算力需求已达惊人规模,基础设施跟不上发展速度,优质数据接近极限,合成数据训练存在“近亲繁殖”问题可能导致模型能力长期衰退。
在 OpenAI 的相关研究中,“良好且通用的数据表示,良好且通用的数据标注,良好且通用的算法”为检测 Scaling Law 做好了准备。同时,在 Sora 的研究中,也遵循了 Scaling Law,即在足量的数据、优质的标注、灵活的编码下,Scaling Law 在 transformer+diffusion model 的架构上继续成立,其想法很大程度上沿袭了大语言模型的经验。
技术范式的演进Scaling Law初遇瓶颈Scaling Law效果放缓是2024年贯穿整年的争论。Scaling Law(规模定律)指的是在模型预训练中,只要三个关键因素——模型大小、数据量、训练时间(计算量)不断增长,模型性能就能大斜率指数级爆发式提升。足够的规模带来——“涌现”,即自发地产生复杂智能,完成复杂问题的推理、并形成非同分布下的泛化性提升。相信Scaling Law,是OpenAI的梦幻发展和这一代大模型能力梦幻提升的起点。而2024年整年,一个争论笼罩着AI界——Scaling Law是正确的,但在现实中,Scaling Law是不是已经触及天花板?算力需求已经达到惊人规模,xAI正在建设10万卡数据中心;基础设施跟不上发展速度,OpenAI提出的5吉瓦数据中心计划几乎相当于纽约州五分之一的居民用电量;最关键的是,正如OpenAI前首席科学家Ilya Sutskever所言,优质数据已接近极限。而合成数据训练的“近亲繁殖”问题,更可能过拟合导致模型能力的长期衰退。然而,OpenAI的o系列模型带来了转机。新的Scaling Law——慢思考与快思考人类对AGI的追求,莫不如说是人类对完全创造另一个“人类”的疯狂幻想,而要让模型“思考”,最重要的是“大脑”。研究人员相信,人的思考其实是细微电流通过神经元,因此如果有足够大、足够接近人脑的人工神经网络,它就可以实现人脑的工作——思考。在人类心理学中,诺贝尔经济学奖得主丹尼尔·卡尼曼提出了著名的“系统1”和“系统2”理论:人类的思维过程分为快速、直觉的“系统1”和缓慢、深思熟虑的“系统2”。
而具体来谈,就是我们之前说的「良好且通用的数据表示,良好且通用的数据标注,良好且通用的算法」,在GPT和Sora中都有相应的内容:在GPT中,良好且通用的数据表示,是tokenizer带来的embedding。良好且通用的数据标注是文本清理和去重的一套方法(因为自然语言训练是unsupervised training,数据本身就是标注)。良好且通用的算法就是大家熟知的transformers+autoregressive loss。在Sora中,良好且通用的数据表示,是video compress network带来的visual patch。良好且通用的数据标注是OpenAI自己的标注器给视频详细的描述(很可能是GPT-vision)。良好且通用的算法也是大家熟知的transformers+diffusion「良好且通用的数据表示,良好且通用的数据标注,良好且通用的算法」同时也为检测scaling law做好了准备,因为你总是可以现在更小规模的模型和数据上检测算法的效果,而不用大幅更改算法。比如GPT1,2,3这几代的迭代路径,以及Sora中OpenAI明确提到visual patch使得他们用完全一样的算法在更小规模的数据上测试。公理3:Emerging properties。这条公理其实是一条检验公理:我怎么知道scaling law带来「质变」,而不仅仅是「量变」?答案是:你会发现,随着scaling law的进行,你的模型突然就能稳定掌握之前不能掌握的能力,而且这是所有人能够直观体验到的。
Sora多么牛逼多么真实之类的就不多谈了,只用一句话就能概括:随便拿视频中的一帧出来,效果都不亚于Dalle-3精心生成一张图片,而且这些图片放在一起可以构成基本符合真实世界物理逻辑的视频。而且Sora本身其实也可以做图片生成,只是大材小用了。如果限制必须用一个词来展现OpenAI的最核心的技术,我觉得便是scaling law——即怎么样保证模型越大,数据越多,效果就越好。Sora也不例外。一句话概括Sora的贡献,便是:在足量的数据,优质的标注,灵活的编码下,scaling law在transformer+diffusion model的架构上继续成立。在Sora的技术报告*中可以看出,OpenAI实现scaling law的想法其实很大程度上沿袭了大语言模型的经验。https://openai.com/research/video-generation-models-as-world-simulators[heading3]足量的数据[content]训练Sora用了多少数据?不出意外,OpenAI在整个技术分析中一点都没有提数据的事情,这可太CloseAI了。但是鉴于内容的丰富性(比如甚至可以生成相当连贯一致的Minecraft游戏视频),我猜测很可能是大量的YouTube视频,同时也不排除有合成数据(比如3D渲染等)。未来可能用整个YouTube上的视频来训练视频生成模型,就和大家用Common Crawl训练大语言模型一样。