在没有明确答案的场景下做 RL 可以参考以下内容:
我们从这里开始推导o1可能以何种方式将RL与LLM融合起来,并把推导出的模型称为Reverse-o1。我们会先分析下在Hidden COT场景下RL的关键要素:状态空间(State Space)、行为空间(Action Space)、奖励模型(Reward Model)。至于RL方法,我推测采用类似AlphaGo/AlphaZero的概率较大,有几个原因:首先,据说OpenAI员工每天要读好几遍[萨顿](https://zhida.zhihu.com/search?content_id=248563321&content_type=Article&match_order=1&q=%E8%90%A8%E9%A1%BF&zhida_source=entity)写的“苦涩的教训”,而里面提到“能够发挥算力的通用方法,如搜索和学习,将最终大获成功”,这里的搜索主要指的就是DeepMind AlphaGo的MCST方法,OpenAI员工耳濡目染不把搜索用起来做个实践也说不过去不是?第二,前几天OpenAI官宣的o1主力成员采访视频里,有员工提到了他们一直以来都在尝试如何将AlphaGo的搜索方法和LLM融合起来,这也是证据之一。所以,之后会简单介绍下AlphaZero的工作原理,并尝试将其和LLM融合起来构造复杂逻辑推理系统。
第五,“强化学习+LLM”的领域泛化能力,可能不局限于理科领域。强化学习适合解决Reward比较明确的复杂问题,典型的是数理化、[Coding](https://zhida.zhihu.com/search?content_id=248563321&content_type=Article&match_order=1&q=Coding&zhida_source=entity)等有标准答案的学科,所以很多人会质疑o1是否能泛化到更宽的领域。确实,o1的思考能力能否泛化到没有明确标准答案、Reward不好[量化](https://zhida.zhihu.com/search?content_id=248563321&content_type=Article&match_order=1&q=%E9%87%8F%E5%8C%96&zhida_source=entity)的领域是它发展的关键,泛化得好,则打开[阳光大道](https://zhida.zhihu.com/search?content_id=248563321&content_type=Article&match_order=1&q=%E9%98%B3%E5%85%89%E5%A4%A7%E9%81%93&zhida_source=entity),泛化得不好,领域局限性就会比较强。我推测OpenAI可能已经找到了一些非数理学科的Reward定义方法,并将这个方法通过RL拓展到更多领域。既然o1可以读懂并遵循安全规则,以“AI宪法”的思路解决安全问题,我觉得由此可以推导出一种针对模糊标准的Reward赋予方法:就是说针对不好量化的领域,通过写一些文字类的判断标准或规则,让大模型读懂并遵循它,以此来作为是否给予Reward的标准,符合标准则Reward高,否则Reward低。例如,针对写作文,就可以列出好文章的标准(结构清晰、文笔优美等规则),让大模型据此来给Reward。如此就能拓展到很多领域。
而DeepSeek R1则引入了纯强化学习(RL),不依赖大量的人类标注数据,而是让AI通过自我探索和试错来学习:DeepSeek R1在“冷启动”阶段,仅通过少量(数千条)人工精选的思维链数据进行初步引导,建立起符合人类阅读习惯的推理表达范式。随后,便主要依靠强化学习,在奖励系统的反馈下(只对结果准确率与回答格式进行奖励),自主探索推理策略,不断提升回答的准确性,实现自我进化。准确率奖励:用于评估AI提供的最终答案是否正确,以此为AI提供答案准确度的反馈。格式奖励:强制结构化输出,让模型把思考过程置于<think></think>标签之间,以便人类观察模型的推理过程。正如Alpha Zero只训练了三天,就以100比0的战绩完胜Alpha Go Lee(战胜李世石的版本)。Alpha Go(老):监督学习+强化学习。学习人类棋谱,也更接近人类职业棋手的风格,继承了人类的局限。Alpha Zero(新):完全摒弃人类数据的纯强化学习。从零开始自我博弈,不受限于人类经验,具有创造性的下棋风格。大模型AI在纯强化学习(RL)下同样也展现出了超出人类研究员想象的成长潜力:“我们只需要简单的为其提供正确的激励措施,它就会自主开发高级的问题解决策略,RL有可能解锁新的人工智能水平。”*只不过Alpha Zero的强化学习更加专精棋类。而DeepSeek R1在训练中,更注重学习推理的底层策略,培养通用推理能力,使其能够实现跨领域的知识迁移运用和推理解答。