Chat with Wiki - openAI新出的o1是什么

Answer

OpenAI 于北京时间 9 月 13 号凌晨 1 点多宣布推出模型 o1-perview 与 o1-mini（真正的 o1 版本将在后续开放），拥有 Plus 版本的用户会陆续收到新模型权限，并可在 Web 客户端中尝鲜体验。

在评估结果方面：

o1 在 2024 美国数学奥林匹克竞赛（AIME）资格赛中跻身美国前 500 名学生之列。
o1 在竞争性编程问题（Codeforces）中排名第 89 个百分位（这个版本的模型还没发布），而 o1-perview 拿到了 62 个百分位。
在物理、生物和化学问题的基准（GPQA），o1 与 o1-perview 都超过了人类博士水平的准确性。

关于“超过人类博士水平”的测试，OpenAI 在新 page 中答复：“我们还在 GPQA diamond 上评估了 o1，这是一个困难的智力基准测试，用于测试化学、物理和生物学方面的专业知识。为了将模型与人类进行比较，我们招募了拥有博士学位的专家来回答 GPQA-diamond 的问题。我们发现 o1 的表现超越了这些人类专家，成为第一个在这个基准测试上做到这一点的模型。”但 OpenAI 也表示“这些结果并不意味着 o1 在所有方面都比博士更有能力——只是说明该模型在解决一些预期博士能够解决的问题上更加熟练。在其他几个机器学习基准测试上，o1 改进了最先进的水平。”

推理模型的准确率不断攀升，这意味着 AI 技术可以渗透到更多行业、更多高精尖业务中去。OpenAI 推出的新模型为整个行业注入了强心剂，带来了新的活力和希望。从 OpenAI 提出的通往 AGI（通用人工智能）的分级来看，我们正在从第一级向第二级迈进，未来可能会见证 AI 从单纯的生成工具向真正的智能体转变。此外，4o 模型和 o1 在推理方面差距较大，红色线代表 4o 的得分，绿色线代表 o1 的得分，o1 在各项得分结果上均优于 4o。

Content generated by AI large model, please carefully verify (powered by aily)

References

OpenAI:我憋了个新大招儿，它叫o1-perview/mini

凌晨2点半写的这篇稿子，行了，也顾不上睡觉了，咱们就开门见山直接说吧！这回Sam可是真不放鸽子了。北京时间9月13号凌晨1点多，OpenAI宣布推出了模型o1-perview与o1-mini（真正的o1版本将在后续开放）。而拥有Plus版本的用户会陆续收到新模型权限，同时可以直接在Web客户端中进行尝鲜体验。OpenAI最近公布的模型发布计划中提到的"推理模型"已经成为业界热点。而这两个新模型正是该计划的具体实现。再加上从"草莓哥"的炒作到Sam Altman富有深意的暗喻，都让这个"推理模型"备受关注。虽然大家对它有所耳闻，但对其实际效果可能还不太清楚。为了直观地了解这个模型的真正能力，我们不妨看看下方的评估结果。左一：o1在2024美国数学奥林匹克竞赛（AIME）资格赛中跻身美国前500名学生之列。中间：o1在竞争性编程问题（Codeforces）中排名第89个百分位（这个版本的模型还没发布），而o1-perview拿到了62个百分位。最右：在物理、生物和化学问题的基准（GPQA）o1与o1-perview都超过了人类博士水平的准确性。

OpenAI:我憋了个新大招儿，它叫o1-perview/mini

但推理模型的准确率不断攀升、甚至达到完全可信的地步确实是一件非常惊喜又恐怖的事情。之前让模型干创意的活儿，现在又能干精确的活儿，这属于全场景覆盖！这意味着AI技术可以渗透到更多行业、更多高精尖业务中去！同时，我回想起老师曾经对我说过的一句话："不管现在的大模型处理速度多慢，操作多么繁琐，只要能保证最终结果的正确性，它就拥有无限的可能性。"我觉得老师的话不无道理，不要看现在新模型的推理速度慢，但这些都可以通过增配新硬件去解决，只要钱到位，这都不是问题。况且，这也可能是慢思考系统的一种呢？你说对吧！再者，在今年上半年，甚至是上个月，很多人还在担忧大模型的前景。但OpenAI推出的新模型无疑给这个行业注入了一剂强心剂，为整个领域带来了新的活力和希望。这是令人赞叹和振奋的。更令人兴奋的是，如果结合OpenAI提出的通往AGI（通用人工智能）的分级来看，我们正在从第一级向第二级迈进。随着模型的不断完善，甚至后面出现GPT-5，我们将可能会慢慢见证AI从单纯的生成工具向真正的智能体转变。让我们睁开眼好好看看这世界，看看这一切。未来可期。以上。附:

OpenAI:我憋了个新大招儿，它叫o1-perview/mini

而且你会发现，4o这个模型也被OpenAI当作对标狠狠地刷了一把自家的脸。看完这个评测结果后，我觉得4o和o1在推理方面，基本等于电瓶车和宾利的差距了...不信你看下方详细测试结果这里的红色线代表4o的得分，而绿色线代表o1的得分,一眼扫过去，没有哪项得分结果是4o能盖过o1的。不过等等，这里有个问题，那就是:OpenAI声称的“超过人类博士水平”是怎么测的？OpenAI在新page中也对这个做了答复：“我们还在GPQA diamond上评估了o1，这是一个困难的智力基准测试，用于测试化学、物理和生物学方面的专业知识。为了将模型与人类进行比较，我们招募了拥有博士学位的专家来回答GPQA-diamond的问题。我们发现o1的表现超越了这些人类专家，成为第一个在这个基准测试上做到这一点的模型。”这么看来，这个测试还是较为可信的，不过OpenAI在“开大”以后，也谦虚了一把，他们是这样说的：“这些结果并不意味着o1在所有方面都比博士更有能力——只是说明该模型在解决一些预期博士能够解决的问题上更加熟练。在其他几个机器学习基准测试上，o1改进了最先进的水平。”