在不好量化反馈的领域设计 reward model 可以参考以下方法:
需要注意的是,以上部分内容是猜测,没有依据。同时,ChatGPT 在进行 RLHF 时也存在一定的局限性,其思想还是基于符号 tokenize 在语言交互的范畴上来完成 RL 的,并通过额外训练一个 Reward Model 来进行奖励的反馈。
第五,“强化学习+LLM”的领域泛化能力,可能不局限于理科领域。强化学习适合解决Reward比较明确的复杂问题,典型的是数理化、[Coding](https://zhida.zhihu.com/search?content_id=248563321&content_type=Article&match_order=1&q=Coding&zhida_source=entity)等有标准答案的学科,所以很多人会质疑o1是否能泛化到更宽的领域。确实,o1的思考能力能否泛化到没有明确标准答案、Reward不好[量化](https://zhida.zhihu.com/search?content_id=248563321&content_type=Article&match_order=1&q=%E9%87%8F%E5%8C%96&zhida_source=entity)的领域是它发展的关键,泛化得好,则打开[阳光大道](https://zhida.zhihu.com/search?content_id=248563321&content_type=Article&match_order=1&q=%E9%98%B3%E5%85%89%E5%A4%A7%E9%81%93&zhida_source=entity),泛化得不好,领域局限性就会比较强。我推测OpenAI可能已经找到了一些非数理学科的Reward定义方法,并将这个方法通过RL拓展到更多领域。既然o1可以读懂并遵循安全规则,以“AI宪法”的思路解决安全问题,我觉得由此可以推导出一种针对模糊标准的Reward赋予方法:就是说针对不好量化的领域,通过写一些文字类的判断标准或规则,让大模型读懂并遵循它,以此来作为是否给予Reward的标准,符合标准则Reward高,否则Reward低。例如,针对写作文,就可以列出好文章的标准(结构清晰、文笔优美等规则),让大模型据此来给Reward。如此就能拓展到很多领域。
当然,想要这么做可能要分步骤,先用好给Reward的数理问题增强模型的复杂推理能力到一定层级,这样它就能看懂规则了,然后再做那些不好量化Reward的领域。(这都是我的猜测,没有依据)由上述分析可看出,o1这条技术方向不仅增强了模型的复杂逻辑能力,由此可能引发大模型研发很多重要方向的革新,这是为何我说o1重要的主要原因。
再次回到文章「上篇」中,对于AlphaGO和AMEI模型的详细介绍中,我们其实已经能够找到RL与LLMs在训练过程中的一些本质共性—均是对目标函数进行梯度求导,只不过目标函数的设计以及数据样本的构建来源与模式会有一定的差异性,需要通过一些工程化的技巧去进行粘合,最好的例子就是ChatGPT的RLHF(RLHF本质上就是一种简单环境模拟形式的RL呀,与传统RL形成略微差异或创新的是其中增加了额外Reward Model用于训练+判别)。因此在ChatGPT发布后,通过其发布的公开技术报告中,包括模型训练的四个阶段:Pretraning、Supervised Fineting、Reward Modeling、Reinforcement Learning(后两个阶段即是RLHF),通过分阶段任务设定与对齐封装,最终完成对自回归(AR)模型+强化学习(RL)模型的融合训练与迭代,当然这里运用了迁移学习前面我们曾提及,“即便ChatGPT在进行最后阶段的RLHF时也有可能仅仅是在做一些通用泛化上的alignment(通用泛化这里仅指在跨表象领域中的所学习到的某种维度的浅层共性Pattern),如整体上基于QA交互层面对生成内容的交互性、合理性、安全性、风险性等进行对齐。”可以想象LLMs最终阶段所采用的RLHF远远没有达到像围棋(AlphaGO)、数学定理证明(AlphaGeometry)、代码策略(AlphaDev)等RL模型那样高度抽象泛化能力的学习,诚然这也取决于其RLHF的思想还是基于符号tokenize在语言交互的范畴上来完成RL的,并通过额外训练一个Reward Model来进行奖励的反馈(对于RL来说稍稍略显僵硬但实用,同时也受限于语言交互的tokenize的局限所致)