对于逻辑增长模型的相关问题,以下是为您提供的信息:
张俊林在相关研究中指出,对于简单或中等难度的逻辑推理问题,通过 inference-time 增加算力,比如树搜索等方式,比增强模型“预训练”阶段的逻辑推理能力效果更明显。这一结论来自于文献“Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters”及“Are More LM Calls All You Need?Towards the Scaling Properties of Compound AI Systems”。
其原因在于,对于简单或中等难度的问题,模型在 inference 时很可能给出答案中的大部分步骤是对的(或多次采样中多数是对的),只有个别步骤错误,通过如 Best-of-N Sampling 这种简单树搜索方法增加输出的多样性,加上靠谱的 Verifier 筛选,较容易修正小错误。但对于高难度的逻辑问题,模型输出内容中大部分步骤可能都是错的(或多次采样中大多数都是错的),此时仅靠 inference-time 增加算力难以解决。
此外,OpenAI o1 的基座模型,在 Pre-training 还是 Post-training 阶段,大概率极大增强了基座模型的复杂逻辑推理能力,这是它能在后续 inference-time 增加算力解决复杂问题的根基。所以,只靠 inference-time 增加算力,仅对容易和中等难度的逻辑问题有用,想要不断提升模型的复杂推理能力,还需要继续在 Pre-Train 和 Post-Training 阶段下功夫。
这个结论来自于文献“Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters”及“Are More LM Calls All You Need?Towards the Scaling Properties of Compound AI Systems”,它们证明了:对于简单或者中等难度的逻辑推理问题,通过inference-time增加算力,比如树搜索等方式,比去增强模型的“预训练”阶段的逻辑推理能力来得效果要明显;而对于高难度的逻辑推理问题,则只靠inference-time很难提升,有时还是负面作用,不如去增强模型“预训练”阶段的逻辑能力(参考上图)。这是为啥呢?您可以想想,其实里面的道理细想一下很好理解。这是因为对于简单或中等难度的问题,模型在inference的时候很可能给出答案中的大部分步骤都是对的(或者多次采样中多数是对的),只有个别步骤错误,导致最终回答错误。通过比如Best-of-N Sampling这种简单树搜索方法来增加输出的多样性,再加上靠谱的Verifier筛一筛,是比较容易把这个小错误修正过来的。但对于高难度的逻辑问题,因为模型输出内容中大部分步骤可能都是错的(或者多次采样中大多数都是错的,这种情况你投个票采取多数人意见看看,结果估计很悲催),你想靠inference-time增加算力无力回天。我自己也是根据上述思考,才进一步反推出上面讲的o1可能的训练过程的:OpenAI o1的基座模型,不论是Pre-training还是Post-training阶段,大概率极大增强了基座模型的复杂逻辑推理能力,这是它能在后续inference-time增加算力解决复杂问题的根基。所以关于这个点的结论应该是这样的:只靠inference-time增加算力,仅对容易和中等难度的逻辑问题有用,想要不断提升模型的复杂推理能力,还需要继续在Pre-Train和Post-Training阶段下功夫。