OpenAI 于北京时间 9 月 13 号凌晨 1 点多宣布推出模型 o1-perview 与 o1-mini(真正的 o1 版本将在后续开放),拥有 Plus 版本的用户会陆续收到新模型权限,并可在 Web 客户端中尝鲜体验。
在评估结果方面:
关于“超过人类博士水平”的测试,OpenAI 在新 page 中答复:“我们还在 GPQA diamond 上评估了 o1,这是一个困难的智力基准测试,用于测试化学、物理和生物学方面的专业知识。为了将模型与人类进行比较,我们招募了拥有博士学位的专家来回答 GPQA-diamond 的问题。我们发现 o1 的表现超越了这些人类专家,成为第一个在这个基准测试上做到这一点的模型。”但 OpenAI 也表示“这些结果并不意味着 o1 在所有方面都比博士更有能力——只是说明该模型在解决一些预期博士能够解决的问题上更加熟练。在其他几个机器学习基准测试上,o1 改进了最先进的水平。”
推理模型的准确率不断攀升,这意味着 AI 技术可以渗透到更多行业、更多高精尖业务中去。OpenAI 推出的新模型为整个行业注入了强心剂,带来了新的活力和希望。从 OpenAI 提出的通往 AGI(通用人工智能)的分级来看,我们正在从第一级向第二级迈进,未来可能会见证 AI 从单纯的生成工具向真正的智能体转变。此外,4o 模型和 o1 在推理方面差距较大,红色线代表 4o 的得分,绿色线代表 o1 的得分,o1 在各项得分结果上均优于 4o。
凌晨2点半写的这篇稿子,行了,也顾不上睡觉了,咱们就开门见山直接说吧!这回Sam可是真不放鸽子了。北京时间9月13号凌晨1点多,OpenAI宣布推出了模型o1-perview与o1-mini(真正的o1版本将在后续开放)。而拥有Plus版本的用户会陆续收到新模型权限,同时可以直接在Web客户端中进行尝鲜体验。OpenAI最近公布的模型发布计划中提到的"推理模型"已经成为业界热点。而这两个新模型正是该计划的具体实现。再加上从"草莓哥"的炒作到Sam Altman富有深意的暗喻,都让这个"推理模型"备受关注。虽然大家对它有所耳闻,但对其实际效果可能还不太清楚。为了直观地了解这个模型的真正能力,我们不妨看看下方的评估结果。左一:o1在2024美国数学奥林匹克竞赛(AIME)资格赛中跻身美国前500名学生之列。中间:o1在竞争性编程问题(Codeforces)中排名第89个百分位(这个版本的模型还没发布),而o1-perview拿到了62个百分位。最右:在物理、生物和化学问题的基准(GPQA)o1与o1-perview都超过了人类博士水平的准确性。
但推理模型的准确率不断攀升、甚至达到完全可信的地步确实是一件非常惊喜又恐怖的事情。之前让模型干创意的活儿,现在又能干精确的活儿,这属于全场景覆盖!这意味着AI技术可以渗透到更多行业、更多高精尖业务中去!同时,我回想起老师曾经对我说过的一句话:"不管现在的大模型处理速度多慢,操作多么繁琐,只要能保证最终结果的正确性,它就拥有无限的可能性。"我觉得老师的话不无道理,不要看现在新模型的推理速度慢,但这些都可以通过增配新硬件去解决,只要钱到位,这都不是问题。况且,这也可能是慢思考系统的一种呢?你说对吧!再者,在今年上半年,甚至是上个月,很多人还在担忧大模型的前景。但OpenAI推出的新模型无疑给这个行业注入了一剂强心剂,为整个领域带来了新的活力和希望。这是令人赞叹和振奋的。更令人兴奋的是,如果结合OpenAI提出的通往AGI(通用人工智能)的分级来看,我们正在从第一级向第二级迈进。随着模型的不断完善,甚至后面出现GPT-5,我们将可能会慢慢见证AI从单纯的生成工具向真正的智能体转变。让我们睁开眼好好看看这世界,看看这一切。未来可期。以上。附:
而且你会发现,4o这个模型也被OpenAI当作对标狠狠地刷了一把自家的脸。看完这个评测结果后,我觉得4o和o1在推理方面,基本等于电瓶车和宾利的差距了...不信你看下方详细测试结果这里的红色线代表4o的得分,而绿色线代表o1的得分,一眼扫过去,没有哪项得分结果是4o能盖过o1的。不过等等,这里有个问题,那就是:OpenAI声称的“超过人类博士水平”是怎么测的?OpenAI在新page中也对这个做了答复:“我们还在GPQA diamond上评估了o1,这是一个困难的智力基准测试,用于测试化学、物理和生物学方面的专业知识。为了将模型与人类进行比较,我们招募了拥有博士学位的专家来回答GPQA-diamond的问题。我们发现o1的表现超越了这些人类专家,成为第一个在这个基准测试上做到这一点的模型。”这么看来,这个测试还是较为可信的,不过OpenAI在“开大”以后,也谦虚了一把,他们是这样说的:“这些结果并不意味着o1在所有方面都比博士更有能力——只是说明该模型在解决一些预期博士能够解决的问题上更加熟练。在其他几个机器学习基准测试上,o1改进了最先进的水平。”