Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

scaling law

Answer

以下是关于“scaling law”的相关信息:

在 AI 领域,“scaling law”(规模法则)具有重要意义。以下是一些相关的研究和报告:

在 GPT 相关的研究中,如[14]Jared Kaplan 等人的“Scaling laws for neural language models”(2020)和[15]Tom Henighan 等人的“Scaling laws for autoregressive generative modeling”(2020),对语言模型的规模法则进行了探讨。

在关于 OpenAI 技术栈的研究中,“良好且通用的数据表示,良好且通用的数据标注,良好且通用的算法”为检测“scaling law”做好了准备。例如在 GPT1、2、3 几代的迭代路径,以及 Sora 中,都可以在更小规模的模型和数据上检测算法的效果。同时,公理 3“Emerging properties”也是一条检验公理,用于判断“scaling law”带来的是“质变”而非“量变”。当模型随着“scaling law”的进行,突然能够稳定掌握之前不能掌握的能力,这是所有人能够直观体验到的。

此外,还有一些相关的参考文献,如[46]Ian McKenzie 等人的“Inverse Scaling Prize:First round winners”(2022)等。

Content generated by AI large model, please carefully verify (powered by aily)

References

报告:GPT-4 官方技术报告

[10]Jimmy Lei Ba,Jamie Ryan Kiros,and Geoffrey E.Hinton.Layer normalization.arXiv preprint arXiv:1607.06450,2016.[11]Jason Wei,Xuezhi Wang,Dale Schuurmans,Maarten Bosma,Ed Chi,Quoc Le,and Denny Zhou.Chain-of-thought prompting elicits reasoning in large language models.NeurIPS,2022.[12]Jiaxin Huang,Shixiang Shane Gu,Le Hou,Yuexin Wu,Xuezhi Wang,Hongkun Yu,and Jiawei Han.Large language models can self-improve.arXiv preprint arXiv:2210.11610,2022.[13]Takeshi Kojima,Shixiang Shane Gu,Machel Reid,Yutaka Matsuo,and Yusuke Iwasawa.Large language models are zero-shot reasoners.arXiv preprint arXiv:2205.11916,2022.[14]Jared Kaplan,Sam McCandlish,Tom Henighan,Tom B.Brown,Benjamin Chess,Rewon Child,Scott Gray,Alec Radford,Jeffrey Wu,and Dario Amodei.Scaling laws for neural language models.arXiv preprint arXiv:2001.08361,2020.[15]Tom Henighan,Jared Kaplan,Mor Katz,Mark Chen,Christopher Hesse,Jacob Jackson,Heewoo Jun,Tom B.Brown,Prafulla Dhariwal,Scott Gray,et al.Scaling laws for autoregressive generative modeling.arXiv preprint arXiv:2010.14701,2020.[16]Greg Yang,Edward J.Hu,Igor Babuschkin,Szymon Sidor,Xiaodong Liu,David Farhi,Nick Ryder,Jakub Pachocki,Weizhu Chen,and Jianfeng Gao.Tensor Programs V:Tuning large neural networks via zero-shot hyperparameter transfer.arXiv preprint arXiv:2203.03466,2022.

GPT、DALL·E、Sora,为什么 OpenAI 可以跑通所有 AGI 技术栈?

而具体来谈,就是我们之前说的「良好且通用的数据表示,良好且通用的数据标注,良好且通用的算法」,在GPT和Sora中都有相应的内容:在GPT中,良好且通用的数据表示,是tokenizer带来的embedding。良好且通用的数据标注是文本清理和去重的一套方法(因为自然语言训练是unsupervised training,数据本身就是标注)。良好且通用的算法就是大家熟知的transformers+autoregressive loss。在Sora中,良好且通用的数据表示,是video compress network带来的visual patch。良好且通用的数据标注是OpenAI自己的标注器给视频详细的描述(很可能是GPT-vision)。良好且通用的算法也是大家熟知的transformers+diffusion「良好且通用的数据表示,良好且通用的数据标注,良好且通用的算法」同时也为检测scaling law做好了准备,因为你总是可以现在更小规模的模型和数据上检测算法的效果,而不用大幅更改算法。比如GPT1,2,3这几代的迭代路径,以及Sora中OpenAI明确提到visual patch使得他们用完全一样的算法在更小规模的数据上测试。公理3:Emerging properties。这条公理其实是一条检验公理:我怎么知道scaling law带来「质变」,而不仅仅是「量变」?答案是:你会发现,随着scaling law的进行,你的模型突然就能稳定掌握之前不能掌握的能力,而且这是所有人能够直观体验到的。

报告:GPT-4 官方技术报告

[46]Ian McKenzie,Alexander Lyzhov,Alicia Parrish,Ameya Prabhu,Aaron Mueller,Najoung Kim,Sam Bowman,and Ethan Perez.Inverse Scaling Prize:First round winners,2022.URL[irmckenzie.co.uk/round1](https://link.juejin.cn?target=https%3A%2F%2Firmckenzie.co.uk%2Fround1).[47]Greg Brockman,Peter Welinder,Mira Murati,and OpenAI.OpenAI:OpenAI API,2020.URL[openai.com/blog/openai…](https://link.juejin.cn?target=https%3A%2F%2Fopenai.com%2Fblog%2Fopenai-api).[48]Aarohi Srivastava,Abhinav Rastogi,Abhishek Rao,Abu Awal Md Shoeb,Abubakar Abid,Adam Fisch,Adam R.Brown,Adam Santoro,Aditya Gupta,AdriàGarriga-Alonso,et al.Beyond the imitation game:Quantifying and extrapolating the capabilities of language models.arXiv preprint arXiv:2206.04615,2022.[49]Dan Hendrycks,Collin Burns,Steven Basart,Andy Zou,Mantas Mazeika,Dawn Song,and Jacob Steinhardt.Measuring massive multitask language understanding.arXiv preprint arXiv:2009.03300,2020.[50]Yi Tay,Jason Wei,Hyung Won Chung,Vinh Q Tran,David R So,Siamak Shakeri,Xavier Garcia,Huaixiu Steven Zheng,Jinfeng Rao,Aakanksha Chowdhery,et al.Transcending scaling laws with 0.1% extra compute.arXiv preprint arXiv:2210.11399,2022.

Others are asking
scalinglaw什么意思
Scaling Law(规模定律)指的是在模型预训练中,只要三个关键因素——模型大小、数据量、训练时间(计算量)不断增长,模型性能就能大斜率指数级爆发式提升。足够的规模带来——“涌现”,即自发地产生复杂智能,完成复杂问题的推理、并形成非同分布下的泛化性提升。 2024 年整年,一个争论笼罩着 AI 界——Scaling Law 是正确的,但在现实中,Scaling Law 是不是已经触及天花板。算力需求已达惊人规模,基础设施跟不上发展速度,优质数据接近极限,合成数据训练存在“近亲繁殖”问题可能导致模型能力长期衰退。 在 OpenAI 的相关研究中,“良好且通用的数据表示,良好且通用的数据标注,良好且通用的算法”为检测 Scaling Law 做好了准备。同时,在 Sora 的研究中,也遵循了 Scaling Law,即在足量的数据、优质的标注、灵活的编码下,Scaling Law 在 transformer+diffusion model 的架构上继续成立,其想法很大程度上沿袭了大语言模型的经验。
2024-12-30
scaling law 是什么
Scaling Law 指的是在 AI 领域中,一旦选择了良好且通用的数据表示、标注和算法,就能找到一套通用规律,保证在数据越多、模型越大的情况下效果越好,并且这套规律稳定到可以在训练模型之前就能预知其效果。 例如,在 OpenAI 的方法论中,强大的算力加持的通用的 AI 算法是 AGI 路径的正道,而 Scaling Law 是 AGI 的充分条件。AI 本质上被认为是一堆 Scaling Law,今天能看到最好的模型具有较大规模的 FLOPs,其数量级还会持续增长。同时,在诸如 OpenAI o1 中,通过设置参数控制树结构的拓展模式,虽对其是否能称为 Scaling Law 存在争议,但这种方式具有极好的可扩展性,能够通过增加算力提升效果。
2024-11-02