Chat with Wiki - GPT O1强在哪里

Answer

GPT O1 的强大之处主要体现在以下几个方面：

在推理方面，与 4o 相比具有显著优势，各项得分结果均超越 4o。
在 GPQA diamond 这一困难的智力基准测试中，表现超越了拥有博士学位的专家，成为首个在该基准测试上达到此成就的模型。
在物理、化学、生物、数学和编程等领域的挑战性任务上，表现出色，如同博士生一样优秀，甚至在 IMO 和 Codeforces 竞赛中取得高分。
具有更聪明的思考方式，会花更多时间思考问题，尝试不同策略，甚至能意识到自身错误。
在遵循指令方面能力较强，且在“后训练”阶段可能存在增强指令遵循能力的环节，极大增强了逻辑推理类的指令遵循数据比例，进一步加强了基座模型的逻辑推理能力。

虽然目前暂时缺少像 ChatGPT 那样的网络浏览和文件上传功能，但在复杂推理任务上已经非常强大。

Content generated by AI large model, please carefully verify (powered by aily)

References

而且你会发现，4o这个模型也被OpenAI当作对标狠狠地刷了一把自家的脸。看完这个评测结果后，我觉得4o和o1在推理方面，基本等于电瓶车和宾利的差距了...不信你看下方详细测试结果这里的红色线代表4o的得分，而绿色线代表o1的得分,一眼扫过去，没有哪项得分结果是4o能盖过o1的。不过等等，这里有个问题，那就是:OpenAI声称的“超过人类博士水平”是怎么测的？OpenAI在新page中也对这个做了答复：“我们还在GPQA diamond上评估了o1，这是一个困难的智力基准测试，用于测试化学、物理和生物学方面的专业知识。为了将模型与人类进行比较，我们招募了拥有博士学位的专家来回答GPQA-diamond的问题。我们发现o1的表现超越了这些人类专家，成为第一个在这个基准测试上做到这一点的模型。”这么看来，这个测试还是较为可信的，不过OpenAI在“开大”以后，也谦虚了一把，他们是这样说的：“这些结果并不意味着o1在所有方面都比博士更有能力——只是说明该模型在解决一些预期博士能够解决的问题上更加熟练。在其他几个机器学习基准测试上，o1改进了最先进的水平。”

4.4 历史更新

1.更聪明的思考方式：这些模型像人一样，会花更多时间思考问题，尝试不同的策略，甚至能意识到自己的错误。2.在复杂任务上表现出色：在物理、化学、生物、数学和编程等领域的挑战性任务上，新模型表现得像博士生一样好，甚至在IMO和Codeforces竞赛中取得了高分。3.暂时缺少一些功能：虽然目前还没有ChatGPT那样的网络浏览和文件上传功能，但在复杂推理任务上，OpenAI O1已经非常强大了。4.AI能力的新高度：这个新系列代表了AI能力的一个新水平，所以我们把它命名为OpenAI O1。

张俊林：Reverse-o1: OpenAI o1原理逆向工程图解

在“后训练”阶段，应该有一个环节是用来增强LLM模型的指令遵循能力的，也就是说RLHF阶段应该是有的。因为o1在遵循指令方面能力并不弱，而且生成的Hidden COT片段里明显也包含很多指令性的内容，如果遵循指令能力比较弱，估计对于生成Hidden COT也有负面影响。所以，推断起来这个环节大概在“思考”阶段之前。（但是RLHF阶段未必有RM和PPO）。但这里和[GPT](https://zhida.zhihu.com/search?content_id=248563321&content_type=Article&match_order=7&q=GPT&zhida_source=entity)4对应的RLHF阶段应有两个重要的不同：首先，o1应该在这个阶段没有做内容安全方面的事情，大概率是挪到后面的阶段了（也有可能这两阶段都做了？）。其次，这个阶段大概率也会极大增强逻辑推理类的指令遵循数据比例，以此进一步加强[基座模型](https://zhida.zhihu.com/search?content_id=248563321&content_type=Article&match_order=1&q=%E5%9F%BA%E5%BA%A7%E6%A8%A1%E5%9E%8B&zhida_source=entity)的逻辑推理能力，原因我们等会专门说明。