Scaling Law 指的是在 AI 领域中,一旦选择了良好且通用的数据表示、标注和算法,就能找到一套通用规律,保证在数据越多、模型越大的情况下效果越好,并且这套规律稳定到可以在训练模型之前就能预知其效果。
例如,在 OpenAI 的方法论中,强大的算力加持的通用的 AI 算法是 AGI 路径的正道,而 Scaling Law 是 AGI 的充分条件。AI 本质上被认为是一堆 Scaling Law,今天能看到最好的模型具有较大规模的 FLOPs,其数量级还会持续增长。同时,在诸如 OpenAI o1 中,通过设置参数控制树结构的拓展模式,虽对其是否能称为 Scaling Law 存在争议,但这种方式具有极好的可扩展性,能够通过增加算力提升效果。
[title]融合RL与LLM思想,探寻世界模型以迈向AGI「中·下篇」[heading1]「中篇」[heading4]RL与LLM融合的本质&阐释:“AI本质就是一堆scaling law..今天能看到最好的模型是10的25到26次方FLOPs这种规模。这个数量级接下来肯定还会持续增长,所以我认为算力是个必要条件,因为机器学习或者AI研究了七八十年,唯一work的东西其实是scaling Law,就是放大这几种生产要素。你需要一个同时满足scalability和generality这两点的架构,但今天其实很多架构已经不满足这两条了。transformer在已知的token space符合这两条,但放大到一个更通用的场景,也不太符合。数据也是一个生产要素,包括整个世界的数字化,和来自用户的数据。现在“吃”的是base model的scaling law,未来可能会去“吃”用户这个数据源的scaling law。因为其实alignment也有scaling law,它肯定是可以被解决的,只要你能找到对的数据。AI本质就是一堆scaling law。一个值得被scale up的架构是基础,这个架构首先得支持不断加入更多数据,然后数据才会真的成为瓶颈。我们现在说的数据瓶颈,从文本模态上,2024年就会遇到,但多模态数据的引入进来会把这个问题推迟1-2年。如果视频和多模态的卡点解决不了,那文本的数据瓶颈就会很关键。这点上其实我们也有些进展——如果限定了问题,比如数学或者写代码,数据是相对好生成的。通用的问题现在还没有完全的解法,但是存在一些方向可以去探索。统计模型没有什么问题。当next token prediction足够好的时候,它能够平衡创造性和事实性。
[title]GPT、DALL·E、Sora,为什么OpenAI可以跑通所有AGI技术栈?[heading2]为什么OpenAI可以跑通所有AGI技术栈?[heading3]方法论明确OpenAI的方法论是通往AGI的方法论。这个方法论有着非常清晰的逻辑结构,和非常明确的推论。我们甚至可以用公理化的方式来描述它,怎么说呢,感觉上有一种宿命感,。这套方法论的大厦构建于以下几个「公理」(打引号是因为它们不是真正的「公理」,更多是经验规律,但是在AGI方法论中,它们起到了公理的作用):公理1:The bitter lesson*。我认为所有做AI的人都应该熟读这篇文章。「The bitter lesson」说的事情是,长期来看,AI领域所有的奇技淫巧都比不过强大的算力夹持的通用的AI算法(这里「强大的算力」隐含了大量的训练数据和大模型)。某种意义上,强大的算力加持的通用的AI算法才是AGI路径的正道,才是AI技术真正进步的方向。从逻辑主义,到专家系统,到SVM等核方法,到深度神经网络,再到现在的大语音模型,莫不过此。*www.cs.utexas.edu/~eunsol/courses/data/bitter_lesson.pdf公理2:Scaling Law。这条公理说了,一旦选择了良好且通用的数据表示,良好且通用的数据标注,良好且通用的算法,那么你就能找到一套通用规律,保证数据越多,模型越大,效果越好。而且这套规律稳定到了可以在训练模型之前就能预知它的效果:如果说公理1 The bitter lesson是AGI的必要条件——大模型,大算力,大数据,那么公理2 Scaling Law就是AGI充分条件,即我们能找到一套算法,稳定的保证大模型,大算力,大数据导致更好的结果,甚至能预测未来。
[title]张俊林:Reverse-o1:OpenAI o1原理逆向工程图解[heading2]OpenAI o1的重要意义虽然我个人认为,如果把通过设置参数来控制如何拓展树结构(比如控制搜索的宽度和深度),这种模式如果能被称为Scaling law的话,多少有点勉强,若这样,那我们可以说2006年AlphaGo出来就有Scaling law了。但不管怎么称呼它,无法忽视的是这种方法的[可扩展性](https://zhida.zhihu.com/search?content_id=248563321&content_type=Article&match_order=1&q=%E5%8F%AF%E6%89%A9%E5%B1%95%E6%80%A7&zhida_source=entity)极好,无论是在RL训练阶段,还是LLM的Inference阶段,只要改下参数配置来增加树搜索的宽度和深度,就能通过增加算力提升效果,可扩展性好且方式灵活。从这点讲,o1确实具有重要意义,因为这证明了它把怎么融合LLM和树搜索这条路走通了,[LLM模型](https://zhida.zhihu.com/search?content_id=248563321&content_type=Article&match_order=1&q=LLM%E6%A8%A1%E5%9E%8B&zhida_source=entity)能够达到AGI的上限就被提高了一大截。第三,在o1之后,小模型大行其道真正成为可能。小模型最近大半年也比较火,但从能力获取角度看,其实还是有上限锁定的,这个锁定小模型上限的就是逻辑推理能力。上面提到了,小模型的能力特点是:语言能力很强不比大模型弱、世界知识不如大模型但是可以通过给更多数据持续提升、受限于模型规模,逻辑推理能力能提升但比较困难。