Chat with Wiki - O1和以前的有什么区别？

Answer

O1 与以前的模型相比，有以下区别：

在人类偏好测试中，文字生成方面人类更倾向于 4o 的回复，而在数据分析、编码和数学等大量推理类别中，O1-preview 的回复更受评测人员青睐。
O1 的出色推理表现源自思维链(CoT)技术，且此次的思维链相比在 4o 上有很大改进，例如通过强化学习，O1 学会了磨练思维链并改进策略、识别和纠正错误、分解棘手步骤、尝试不同方法等。
作为早期模型，O1 还不具备使 ChatGPT 有用的一些功能，如浏览网页获取信息、上传文件和图像。但对于复杂推理任务是重大进步，代表了新的 AI 能力水平。
在一些竞赛和基准测试中表现出色，如在 2024 美国数学奥林匹克竞赛（AIME）资格赛中跻身美国前 500 名学生之列，在竞争性编程问题（Codeforces）中 o1-perview 拿到 62 个百分位，在物理、生物和化学问题的基准（GPQA）中 O1 与 O1-perview 都超过了人类博士水平的准确性。

Content generated by AI large model, please carefully verify (powered by aily)

References

除此之外，OpenAI还对新模型做了人类偏好测试，请看下图：简单来说，这个测试结果表明：在文字生成方面，人类更加喜欢4o的回复，而不是o1-perview的回复。但在数据分析、编码和数学等需要大量推理的类别中，o1-preview的回复显然更加受到评测人员的青睐。那么，下一个问题就又出来了：这么出色的推理表现源自于什么神秘技术？当然是思维链(CoT)。但这次的思维链和之前在4o上的思维链可大有改进：“通过强化学习，o1学会了磨练其思维链并改进所使用的策略、学会了识别和纠正自己的错误、学会了将棘手的步骤分解成更简单的步骤、学会了在当前方法不起作用时尝试不同的方法。“学会的太多了......而且这个思维链也是足够复杂的！我大概的看了一下，这里有CoT嵌套、反思、有多项示例、似乎还有混合了决策树的逻辑在里边....对于这部分，碍于篇幅，我会单独开一篇内容和大家单独讨论。不过，想去尝鲜学习的朋友直接跳转传送门：https://openai.com/index/learning-to-reason-with-llms/好了，让我们继续。

OPENAI新模型9.12发布：OpenAI o1-WaytoAGI整理

As an early model,it doesn't yet have many of the features that make ChatGPT useful,like browsing the web for information and uploading files and images.For many common cases GPT-4o will be more capable in the near term.作为早期模型，它还不具备使ChatGPT有用的许多功能，例如浏览网页以获取信息以及上传文件和图像。对于许多常见情况，GPT-4o在短期内会更有能力。But for complex reasoning tasks this is a significant advancement and represents a new level of AI capability.Given this,we are resetting the counter back to 1 and naming this series OpenAI o1.但对于复杂的推理任务来说，这是一个重大进步，代表了AI能力的新水平。鉴于此，我们将计数器重置回1并将此系列命名为OpenAI o1。

OpenAI:我憋了个新大招儿，它叫o1-perview/mini

凌晨2点半写的这篇稿子，行了，也顾不上睡觉了，咱们就开门见山直接说吧！这回Sam可是真不放鸽子了。北京时间9月13号凌晨1点多，OpenAI宣布推出了模型o1-perview与o1-mini（真正的o1版本将在后续开放）。而拥有Plus版本的用户会陆续收到新模型权限，同时可以直接在Web客户端中进行尝鲜体验。OpenAI最近公布的模型发布计划中提到的"推理模型"已经成为业界热点。而这两个新模型正是该计划的具体实现。再加上从"草莓哥"的炒作到Sam Altman富有深意的暗喻，都让这个"推理模型"备受关注。虽然大家对它有所耳闻，但对其实际效果可能还不太清楚。为了直观地了解这个模型的真正能力，我们不妨看看下方的评估结果。左一：o1在2024美国数学奥林匹克竞赛（AIME）资格赛中跻身美国前500名学生之列。中间：o1在竞争性编程问题（Codeforces）中排名第89个百分位（这个版本的模型还没发布），而o1-perview拿到了62个百分位。最右：在物理、生物和化学问题的基准（GPQA）o1与o1-perview都超过了人类博士水平的准确性。