O1 与以前的模型相比,有以下区别:
除此之外,OpenAI还对新模型做了人类偏好测试,请看下图:简单来说,这个测试结果表明:在文字生成方面,人类更加喜欢4o的回复,而不是o1-perview的回复。但在数据分析、编码和数学等需要大量推理的类别中,o1-preview的回复显然更加受到评测人员的青睐。那么,下一个问题就又出来了:这么出色的推理表现源自于什么神秘技术?当然是思维链(CoT)。但这次的思维链和之前在4o上的思维链可大有改进:“通过强化学习,o1学会了磨练其思维链并改进所使用的策略、学会了识别和纠正自己的错误、学会了将棘手的步骤分解成更简单的步骤、学会了在当前方法不起作用时尝试不同的方法。“学会的太多了......而且这个思维链也是足够复杂的!我大概的看了一下,这里有CoT嵌套、反思、有多项示例、似乎还有混合了决策树的逻辑在里边....对于这部分,碍于篇幅,我会单独开一篇内容和大家单独讨论。不过,想去尝鲜学习的朋友直接跳转传送门:https://openai.com/index/learning-to-reason-with-llms/好了,让我们继续。
As an early model,it doesn't yet have many of the features that make ChatGPT useful,like browsing the web for information and uploading files and images.For many common cases GPT-4o will be more capable in the near term.作为早期模型,它还不具备使ChatGPT有用的许多功能,例如浏览网页以获取信息以及上传文件和图像。对于许多常见情况,GPT-4o在短期内会更有能力。But for complex reasoning tasks this is a significant advancement and represents a new level of AI capability.Given this,we are resetting the counter back to 1 and naming this series OpenAI o1.但对于复杂的推理任务来说,这是一个重大进步,代表了AI能力的新水平。鉴于此,我们将计数器重置回1并将此系列命名为OpenAI o1。
凌晨2点半写的这篇稿子,行了,也顾不上睡觉了,咱们就开门见山直接说吧!这回Sam可是真不放鸽子了。北京时间9月13号凌晨1点多,OpenAI宣布推出了模型o1-perview与o1-mini(真正的o1版本将在后续开放)。而拥有Plus版本的用户会陆续收到新模型权限,同时可以直接在Web客户端中进行尝鲜体验。OpenAI最近公布的模型发布计划中提到的"推理模型"已经成为业界热点。而这两个新模型正是该计划的具体实现。再加上从"草莓哥"的炒作到Sam Altman富有深意的暗喻,都让这个"推理模型"备受关注。虽然大家对它有所耳闻,但对其实际效果可能还不太清楚。为了直观地了解这个模型的真正能力,我们不妨看看下方的评估结果。左一:o1在2024美国数学奥林匹克竞赛(AIME)资格赛中跻身美国前500名学生之列。中间:o1在竞争性编程问题(Codeforces)中排名第89个百分位(这个版本的模型还没发布),而o1-perview拿到了62个百分位。最右:在物理、生物和化学问题的基准(GPQA)o1与o1-perview都超过了人类博士水平的准确性。