Chat with Wiki - scalinglaw什么意思

Answer

Scaling Law（规模定律）指的是在模型预训练中，只要三个关键因素——模型大小、数据量、训练时间（计算量）不断增长，模型性能就能大斜率指数级爆发式提升。足够的规模带来——“涌现”，即自发地产生复杂智能，完成复杂问题的推理、并形成非同分布下的泛化性提升。

2024 年整年，一个争论笼罩着 AI 界——Scaling Law 是正确的，但在现实中，Scaling Law 是不是已经触及天花板。算力需求已达惊人规模，基础设施跟不上发展速度，优质数据接近极限，合成数据训练存在“近亲繁殖”问题可能导致模型能力长期衰退。

在 OpenAI 的相关研究中，“良好且通用的数据表示，良好且通用的数据标注，良好且通用的算法”为检测 Scaling Law 做好了准备。同时，在 Sora 的研究中，也遵循了 Scaling Law，即在足量的数据、优质的标注、灵活的编码下，Scaling Law 在 transformer+diffusion model 的架构上继续成立，其想法很大程度上沿袭了大语言模型的经验。

Content generated by AI large model, please carefully verify (powered by aily)

References

码观 | 共识与非共识：从模型到应用，2024 AI 趋势回首与展望

技术范式的演进Scaling Law初遇瓶颈Scaling Law效果放缓是2024年贯穿整年的争论。Scaling Law（规模定律）指的是在模型预训练中，只要三个关键因素——模型大小、数据量、训练时间（计算量）不断增长，模型性能就能大斜率指数级爆发式提升。足够的规模带来——“涌现”，即自发地产生复杂智能，完成复杂问题的推理、并形成非同分布下的泛化性提升。相信Scaling Law，是OpenAI的梦幻发展和这一代大模型能力梦幻提升的起点。而2024年整年，一个争论笼罩着AI界——Scaling Law是正确的，但在现实中，Scaling Law是不是已经触及天花板？算力需求已经达到惊人规模，xAI正在建设10万卡数据中心；基础设施跟不上发展速度，OpenAI提出的5吉瓦数据中心计划几乎相当于纽约州五分之一的居民用电量；最关键的是，正如OpenAI前首席科学家Ilya Sutskever所言，优质数据已接近极限。而合成数据训练的“近亲繁殖”问题，更可能过拟合导致模型能力的长期衰退。然而，OpenAI的o系列模型带来了转机。新的Scaling Law——慢思考与快思考人类对AGI的追求，莫不如说是人类对完全创造另一个“人类”的疯狂幻想，而要让模型“思考”，最重要的是“大脑”。研究人员相信，人的思考其实是细微电流通过神经元，因此如果有足够大、足够接近人脑的人工神经网络，它就可以实现人脑的工作——思考。在人类心理学中，诺贝尔经济学奖得主丹尼尔·卡尼曼提出了著名的“系统1”和“系统2”理论：人类的思维过程分为快速、直觉的“系统1”和缓慢、深思熟虑的“系统2”。

GPT、DALL·E、Sora，为什么 OpenAI 可以跑通所有 AGI 技术栈？

而具体来谈，就是我们之前说的「良好且通用的数据表示，良好且通用的数据标注，良好且通用的算法」，在GPT和Sora中都有相应的内容：在GPT中，良好且通用的数据表示，是tokenizer带来的embedding。良好且通用的数据标注是文本清理和去重的一套方法（因为自然语言训练是unsupervised training，数据本身就是标注）。良好且通用的算法就是大家熟知的transformers+autoregressive loss。在Sora中，良好且通用的数据表示，是video compress network带来的visual patch。良好且通用的数据标注是OpenAI自己的标注器给视频详细的描述（很可能是GPT-vision）。良好且通用的算法也是大家熟知的transformers+diffusion「良好且通用的数据表示，良好且通用的数据标注，良好且通用的算法」同时也为检测scaling law做好了准备，因为你总是可以现在更小规模的模型和数据上检测算法的效果，而不用大幅更改算法。比如GPT1，2，3这几代的迭代路径，以及Sora中OpenAI明确提到visual patch使得他们用完全一样的算法在更小规模的数据上测试。公理3:Emerging properties。这条公理其实是一条检验公理：我怎么知道scaling law带来「质变」，而不仅仅是「量变」？答案是：你会发现，随着scaling law的进行，你的模型突然就能稳定掌握之前不能掌握的能力，而且这是所有人能够直观体验到的。

GPT、DALL·E、Sora，为什么 OpenAI 可以跑通所有 AGI 技术栈？

Sora多么牛逼多么真实之类的就不多谈了，只用一句话就能概括：随便拿视频中的一帧出来，效果都不亚于Dalle-3精心生成一张图片，而且这些图片放在一起可以构成基本符合真实世界物理逻辑的视频。而且Sora本身其实也可以做图片生成，只是大材小用了。如果限制必须用一个词来展现OpenAI的最核心的技术，我觉得便是scaling law——即怎么样保证模型越大，数据越多，效果就越好。Sora也不例外。一句话概括Sora的贡献，便是：在足量的数据，优质的标注，灵活的编码下，scaling law在transformer+diffusion model的架构上继续成立。在Sora的技术报告*中可以看出，OpenAI实现scaling law的想法其实很大程度上沿袭了大语言模型的经验。https://openai.com/research/video-generation-models-as-world-simulators[heading3]足量的数据[content]训练Sora用了多少数据？不出意外，OpenAI在整个技术分析中一点都没有提数据的事情，这可太CloseAI了。但是鉴于内容的丰富性（比如甚至可以生成相当连贯一致的Minecraft游戏视频），我猜测很可能是大量的YouTube视频，同时也不排除有合成数据（比如3D渲染等）。未来可能用整个YouTube上的视频来训练视频生成模型，就和大家用Common Crawl训练大语言模型一样。