Chat with Wiki - scaling law

Answer

以下是关于“scaling law”的相关信息：

在 AI 领域，“scaling law”（规模法则）具有重要意义。以下是一些相关的研究和报告：

在 GPT 相关的研究中，如[14]Jared Kaplan 等人的“Scaling laws for neural language models”（2020）和[15]Tom Henighan 等人的“Scaling laws for autoregressive generative modeling”（2020），对语言模型的规模法则进行了探讨。

在关于 OpenAI 技术栈的研究中，“良好且通用的数据表示，良好且通用的数据标注，良好且通用的算法”为检测“scaling law”做好了准备。例如在 GPT1、2、3 几代的迭代路径，以及 Sora 中，都可以在更小规模的模型和数据上检测算法的效果。同时，公理 3“Emerging properties”也是一条检验公理，用于判断“scaling law”带来的是“质变”而非“量变”。当模型随着“scaling law”的进行，突然能够稳定掌握之前不能掌握的能力，这是所有人能够直观体验到的。

此外，还有一些相关的参考文献，如[46]Ian McKenzie 等人的“Inverse Scaling Prize:First round winners”（2022）等。

Content generated by AI large model, please carefully verify (powered by aily)

References

报告：GPT-4 官方技术报告

[10]Jimmy Lei Ba,Jamie Ryan Kiros,and Geoffrey E.Hinton.Layer normalization.arXiv preprint arXiv:1607.06450,2016.[11]Jason Wei,Xuezhi Wang,Dale Schuurmans,Maarten Bosma,Ed Chi,Quoc Le,and Denny Zhou.Chain-of-thought prompting elicits reasoning in large language models.NeurIPS,2022.[12]Jiaxin Huang,Shixiang Shane Gu,Le Hou,Yuexin Wu,Xuezhi Wang,Hongkun Yu,and Jiawei Han.Large language models can self-improve.arXiv preprint arXiv:2210.11610,2022.[13]Takeshi Kojima,Shixiang Shane Gu,Machel Reid,Yutaka Matsuo,and Yusuke Iwasawa.Large language models are zero-shot reasoners.arXiv preprint arXiv:2205.11916,2022.[14]Jared Kaplan,Sam McCandlish,Tom Henighan,Tom B.Brown,Benjamin Chess,Rewon Child,Scott Gray,Alec Radford,Jeffrey Wu,and Dario Amodei.Scaling laws for neural language models.arXiv preprint arXiv:2001.08361,2020.[15]Tom Henighan,Jared Kaplan,Mor Katz,Mark Chen,Christopher Hesse,Jacob Jackson,Heewoo Jun,Tom B.Brown,Prafulla Dhariwal,Scott Gray,et al.Scaling laws for autoregressive generative modeling.arXiv preprint arXiv:2010.14701,2020.[16]Greg Yang,Edward J.Hu,Igor Babuschkin,Szymon Sidor,Xiaodong Liu,David Farhi,Nick Ryder,Jakub Pachocki,Weizhu Chen,and Jianfeng Gao.Tensor Programs V:Tuning large neural networks via zero-shot hyperparameter transfer.arXiv preprint arXiv:2203.03466,2022.

GPT、DALL·E、Sora，为什么 OpenAI 可以跑通所有 AGI 技术栈？

而具体来谈，就是我们之前说的「良好且通用的数据表示，良好且通用的数据标注，良好且通用的算法」，在GPT和Sora中都有相应的内容：在GPT中，良好且通用的数据表示，是tokenizer带来的embedding。良好且通用的数据标注是文本清理和去重的一套方法（因为自然语言训练是unsupervised training，数据本身就是标注）。良好且通用的算法就是大家熟知的transformers+autoregressive loss。在Sora中，良好且通用的数据表示，是video compress network带来的visual patch。良好且通用的数据标注是OpenAI自己的标注器给视频详细的描述（很可能是GPT-vision）。良好且通用的算法也是大家熟知的transformers+diffusion「良好且通用的数据表示，良好且通用的数据标注，良好且通用的算法」同时也为检测scaling law做好了准备，因为你总是可以现在更小规模的模型和数据上检测算法的效果，而不用大幅更改算法。比如GPT1，2，3这几代的迭代路径，以及Sora中OpenAI明确提到visual patch使得他们用完全一样的算法在更小规模的数据上测试。公理3:Emerging properties。这条公理其实是一条检验公理：我怎么知道scaling law带来「质变」，而不仅仅是「量变」？答案是：你会发现，随着scaling law的进行，你的模型突然就能稳定掌握之前不能掌握的能力，而且这是所有人能够直观体验到的。

报告：GPT-4 官方技术报告

[46]Ian McKenzie,Alexander Lyzhov,Alicia Parrish,Ameya Prabhu,Aaron Mueller,Najoung Kim,Sam Bowman,and Ethan Perez.Inverse Scaling Prize:First round winners,2022.URL[irmckenzie.co.uk/round1](https://link.juejin.cn?target=https%3A%2F%2Firmckenzie.co.uk%2Fround1).[47]Greg Brockman,Peter Welinder,Mira Murati,and OpenAI.OpenAI:OpenAI API,2020.URL[openai.com/blog/openai…](https://link.juejin.cn?target=https%3A%2F%2Fopenai.com%2Fblog%2Fopenai-api).[48]Aarohi Srivastava,Abhinav Rastogi,Abhishek Rao,Abu Awal Md Shoeb,Abubakar Abid,Adam Fisch,Adam R.Brown,Adam Santoro,Aditya Gupta,AdriàGarriga-Alonso,et al.Beyond the imitation game:Quantifying and extrapolating the capabilities of language models.arXiv preprint arXiv:2206.04615,2022.[49]Dan Hendrycks,Collin Burns,Steven Basart,Andy Zou,Mantas Mazeika,Dawn Song,and Jacob Steinhardt.Measuring massive multitask language understanding.arXiv preprint arXiv:2009.03300,2020.[50]Yi Tay,Jason Wei,Hyung Won Chung,Vinh Q Tran,David R So,Siamak Shakeri,Xavier Garcia,Huaixiu Steven Zheng,Jinfeng Rao,Aakanksha Chowdhery,et al.Transcending scaling laws with 0.1% extra compute.arXiv preprint arXiv:2210.11399,2022.