以下是关于“scaling law”的相关信息:
在 AI 领域,“scaling law”(规模法则)具有重要意义。以下是一些相关的研究和报告:
在 GPT 相关的研究中,如[14]Jared Kaplan 等人的“Scaling laws for neural language models”(2020)和[15]Tom Henighan 等人的“Scaling laws for autoregressive generative modeling”(2020),对语言模型的规模法则进行了探讨。
在关于 OpenAI 技术栈的研究中,“良好且通用的数据表示,良好且通用的数据标注,良好且通用的算法”为检测“scaling law”做好了准备。例如在 GPT1、2、3 几代的迭代路径,以及 Sora 中,都可以在更小规模的模型和数据上检测算法的效果。同时,公理 3“Emerging properties”也是一条检验公理,用于判断“scaling law”带来的是“质变”而非“量变”。当模型随着“scaling law”的进行,突然能够稳定掌握之前不能掌握的能力,这是所有人能够直观体验到的。
此外,还有一些相关的参考文献,如[46]Ian McKenzie 等人的“Inverse Scaling Prize:First round winners”(2022)等。
[10]Jimmy Lei Ba,Jamie Ryan Kiros,and Geoffrey E.Hinton.Layer normalization.arXiv preprint arXiv:1607.06450,2016.[11]Jason Wei,Xuezhi Wang,Dale Schuurmans,Maarten Bosma,Ed Chi,Quoc Le,and Denny Zhou.Chain-of-thought prompting elicits reasoning in large language models.NeurIPS,2022.[12]Jiaxin Huang,Shixiang Shane Gu,Le Hou,Yuexin Wu,Xuezhi Wang,Hongkun Yu,and Jiawei Han.Large language models can self-improve.arXiv preprint arXiv:2210.11610,2022.[13]Takeshi Kojima,Shixiang Shane Gu,Machel Reid,Yutaka Matsuo,and Yusuke Iwasawa.Large language models are zero-shot reasoners.arXiv preprint arXiv:2205.11916,2022.[14]Jared Kaplan,Sam McCandlish,Tom Henighan,Tom B.Brown,Benjamin Chess,Rewon Child,Scott Gray,Alec Radford,Jeffrey Wu,and Dario Amodei.Scaling laws for neural language models.arXiv preprint arXiv:2001.08361,2020.[15]Tom Henighan,Jared Kaplan,Mor Katz,Mark Chen,Christopher Hesse,Jacob Jackson,Heewoo Jun,Tom B.Brown,Prafulla Dhariwal,Scott Gray,et al.Scaling laws for autoregressive generative modeling.arXiv preprint arXiv:2010.14701,2020.[16]Greg Yang,Edward J.Hu,Igor Babuschkin,Szymon Sidor,Xiaodong Liu,David Farhi,Nick Ryder,Jakub Pachocki,Weizhu Chen,and Jianfeng Gao.Tensor Programs V:Tuning large neural networks via zero-shot hyperparameter transfer.arXiv preprint arXiv:2203.03466,2022.
而具体来谈,就是我们之前说的「良好且通用的数据表示,良好且通用的数据标注,良好且通用的算法」,在GPT和Sora中都有相应的内容:在GPT中,良好且通用的数据表示,是tokenizer带来的embedding。良好且通用的数据标注是文本清理和去重的一套方法(因为自然语言训练是unsupervised training,数据本身就是标注)。良好且通用的算法就是大家熟知的transformers+autoregressive loss。在Sora中,良好且通用的数据表示,是video compress network带来的visual patch。良好且通用的数据标注是OpenAI自己的标注器给视频详细的描述(很可能是GPT-vision)。良好且通用的算法也是大家熟知的transformers+diffusion「良好且通用的数据表示,良好且通用的数据标注,良好且通用的算法」同时也为检测scaling law做好了准备,因为你总是可以现在更小规模的模型和数据上检测算法的效果,而不用大幅更改算法。比如GPT1,2,3这几代的迭代路径,以及Sora中OpenAI明确提到visual patch使得他们用完全一样的算法在更小规模的数据上测试。公理3:Emerging properties。这条公理其实是一条检验公理:我怎么知道scaling law带来「质变」,而不仅仅是「量变」?答案是:你会发现,随着scaling law的进行,你的模型突然就能稳定掌握之前不能掌握的能力,而且这是所有人能够直观体验到的。
[46]Ian McKenzie,Alexander Lyzhov,Alicia Parrish,Ameya Prabhu,Aaron Mueller,Najoung Kim,Sam Bowman,and Ethan Perez.Inverse Scaling Prize:First round winners,2022.URL[irmckenzie.co.uk/round1](https://link.juejin.cn?target=https%3A%2F%2Firmckenzie.co.uk%2Fround1).[47]Greg Brockman,Peter Welinder,Mira Murati,and OpenAI.OpenAI:OpenAI API,2020.URL[openai.com/blog/openai…](https://link.juejin.cn?target=https%3A%2F%2Fopenai.com%2Fblog%2Fopenai-api).[48]Aarohi Srivastava,Abhinav Rastogi,Abhishek Rao,Abu Awal Md Shoeb,Abubakar Abid,Adam Fisch,Adam R.Brown,Adam Santoro,Aditya Gupta,AdriàGarriga-Alonso,et al.Beyond the imitation game:Quantifying and extrapolating the capabilities of language models.arXiv preprint arXiv:2206.04615,2022.[49]Dan Hendrycks,Collin Burns,Steven Basart,Andy Zou,Mantas Mazeika,Dawn Song,and Jacob Steinhardt.Measuring massive multitask language understanding.arXiv preprint arXiv:2009.03300,2020.[50]Yi Tay,Jason Wei,Hyung Won Chung,Vinh Q Tran,David R So,Siamak Shakeri,Xavier Garcia,Huaixiu Steven Zheng,Jinfeng Rao,Aakanksha Chowdhery,et al.Transcending scaling laws with 0.1% extra compute.arXiv preprint arXiv:2210.11399,2022.