Chat with Wiki - 在没有明确答案的场景，怎么做RL？

Answer

在没有明确答案的场景下做 RL 可以参考以下内容：

分析关键要素：包括状态空间、行为空间和奖励模型。
方法推测：如采用类似 AlphaGo/AlphaZero 的概率较大。原因包括 OpenAI 员工受相关理念影响，且有将搜索方法和 LLM 融合的尝试。
对于领域泛化能力：o1 的思考能力能否泛化到 Reward 不好量化的领域是关键。OpenAI 可能已找到一些非数理学科的 Reward 定义方法，例如针对写作文列出好文章的标准作为 Reward 标准。
以 DeepSeek R1 为例：在“冷启动”阶段通过少量人工精选的思维链数据初步引导，随后主要依靠强化学习，在奖励系统（准确率奖励和格式奖励）的反馈下自主探索推理策略，实现自我进化。Alpha Zero 完全摒弃人类数据进行纯强化学习，展现出创造性风格。DeepSeek R1 更注重学习推理底层策略，培养通用推理能力以实现跨领域运用。

Content generated by AI large model, please carefully verify (powered by aily)

References

我们从这里开始推导o1可能以何种方式将RL与LLM融合起来，并把推导出的模型称为Reverse-o1。我们会先分析下在Hidden COT场景下RL的关键要素：状态空间（State Space）、行为空间（Action Space）、奖励模型（Reward Model）。至于RL方法，我推测采用类似AlphaGo/AlphaZero的概率较大，有几个原因：首先，据说OpenAI员工每天要读好几遍[萨顿](https://zhida.zhihu.com/search?content_id=248563321&content_type=Article&match_order=1&q=%E8%90%A8%E9%A1%BF&zhida_source=entity)写的“苦涩的教训”，而里面提到“能够发挥算力的通用方法，如搜索和学习，将最终大获成功”，这里的搜索主要指的就是DeepMind AlphaGo的MCST方法，OpenAI员工耳濡目染不把搜索用起来做个实践也说不过去不是？第二，前几天OpenAI官宣的o1主力成员采访视频里，有员工提到了他们一直以来都在尝试如何将AlphaGo的搜索方法和LLM融合起来，这也是证据之一。所以，之后会简单介绍下AlphaZero的工作原理，并尝试将其和LLM融合起来构造复杂逻辑推理系统。

张俊林：Reverse-o1: OpenAI o1原理逆向工程图解

第五，“强化学习+LLM”的领域泛化能力，可能不局限于理科领域。强化学习适合解决Reward比较明确的复杂问题，典型的是数理化、[Coding](https://zhida.zhihu.com/search?content_id=248563321&content_type=Article&match_order=1&q=Coding&zhida_source=entity)等有标准答案的学科，所以很多人会质疑o1是否能泛化到更宽的领域。确实，o1的思考能力能否泛化到没有明确标准答案、Reward不好[量化](https://zhida.zhihu.com/search?content_id=248563321&content_type=Article&match_order=1&q=%E9%87%8F%E5%8C%96&zhida_source=entity)的领域是它发展的关键，泛化得好，则打开[阳光大道](https://zhida.zhihu.com/search?content_id=248563321&content_type=Article&match_order=1&q=%E9%98%B3%E5%85%89%E5%A4%A7%E9%81%93&zhida_source=entity)，泛化得不好，领域局限性就会比较强。我推测OpenAI可能已经找到了一些非数理学科的Reward定义方法，并将这个方法通过RL拓展到更多领域。既然o1可以读懂并遵循安全规则，以“AI宪法”的思路解决安全问题，我觉得由此可以推导出一种针对模糊标准的Reward赋予方法：就是说针对不好量化的领域，通过写一些文字类的判断标准或规则，让大模型读懂并遵循它，以此来作为是否给予Reward的标准，符合标准则Reward高，否则Reward低。例如，针对写作文，就可以列出好文章的标准（结构清晰、文笔优美等规则），让大模型据此来给Reward。如此就能拓展到很多领域。

非技术人 10 分钟读懂 Deepseek R1｜天才模型养成与 AI 超越人类的破晓时刻

而DeepSeek R1则引入了纯强化学习（RL），不依赖大量的人类标注数据，而是让AI通过自我探索和试错来学习：DeepSeek R1在“冷启动”阶段，仅通过少量（数千条）人工精选的思维链数据进行初步引导，建立起符合人类阅读习惯的推理表达范式。随后，便主要依靠强化学习，在奖励系统的反馈下（只对结果准确率与回答格式进行奖励），自主探索推理策略，不断提升回答的准确性，实现自我进化。准确率奖励：用于评估AI提供的最终答案是否正确，以此为AI提供答案准确度的反馈。格式奖励：强制结构化输出，让模型把思考过程置于<think></think>标签之间，以便人类观察模型的推理过程。正如Alpha Zero只训练了三天，就以100比0的战绩完胜Alpha Go Lee（战胜李世石的版本）。Alpha Go（老）：监督学习+强化学习。学习人类棋谱，也更接近人类职业棋手的风格，继承了人类的局限。Alpha Zero（新）：完全摒弃人类数据的纯强化学习。从零开始自我博弈，不受限于人类经验，具有创造性的下棋风格。大模型AI在纯强化学习（RL）下同样也展现出了超出人类研究员想象的成长潜力：“我们只需要简单的为其提供正确的激励措施，它就会自主开发高级的问题解决策略，RL有可能解锁新的人工智能水平。”*只不过Alpha Zero的强化学习更加专精棋类。而DeepSeek R1在训练中，更注重学习推理的底层策略，培养通用推理能力，使其能够实现跨领域的知识迁移运用和推理解答。