直达「 通往AGI之路 」飞书知识库 →
首页/问答列表/问答详情

openAI新出的o1是什么

回答

OpenAI 于北京时间 9 月 13 号凌晨 1 点多宣布推出模型 o1-perview 与 o1-mini(真正的 o1 版本将在后续开放),拥有 Plus 版本的用户会陆续收到新模型权限,并可在 Web 客户端中尝鲜体验。

在评估结果方面:

  • o1 在 2024 美国数学奥林匹克竞赛(AIME)资格赛中跻身美国前 500 名学生之列。
  • o1 在竞争性编程问题(Codeforces)中排名第 89 个百分位(这个版本的模型还没发布),而 o1-perview 拿到了 62 个百分位。
  • 在物理、生物和化学问题的基准(GPQA),o1 与 o1-perview 都超过了人类博士水平的准确性。

关于“超过人类博士水平”的测试,OpenAI 在新 page 中答复:“我们还在 GPQA diamond 上评估了 o1,这是一个困难的智力基准测试,用于测试化学、物理和生物学方面的专业知识。为了将模型与人类进行比较,我们招募了拥有博士学位的专家来回答 GPQA-diamond 的问题。我们发现 o1 的表现超越了这些人类专家,成为第一个在这个基准测试上做到这一点的模型。”但 OpenAI 也表示“这些结果并不意味着 o1 在所有方面都比博士更有能力——只是说明该模型在解决一些预期博士能够解决的问题上更加熟练。在其他几个机器学习基准测试上,o1 改进了最先进的水平。”

推理模型的准确率不断攀升,这意味着 AI 技术可以渗透到更多行业、更多高精尖业务中去。OpenAI 推出的新模型为整个行业注入了强心剂,带来了新的活力和希望。从 OpenAI 提出的通往 AGI(通用人工智能)的分级来看,我们正在从第一级向第二级迈进,未来可能会见证 AI 从单纯的生成工具向真正的智能体转变。此外,4o 模型和 o1 在推理方面差距较大,红色线代表 4o 的得分,绿色线代表 o1 的得分,o1 在各项得分结果上均优于 4o。

内容由 AI 大模型生成,请仔细甄别(powered by aily)

参考资料

OpenAI:我憋了个新大招儿,它叫o1-perview/mini

凌晨2点半写的这篇稿子,行了,也顾不上睡觉了,咱们就开门见山直接说吧!这回Sam可是真不放鸽子了。北京时间9月13号凌晨1点多,OpenAI宣布推出了模型o1-perview与o1-mini(真正的o1版本将在后续开放)。而拥有Plus版本的用户会陆续收到新模型权限,同时可以直接在Web客户端中进行尝鲜体验。OpenAI最近公布的模型发布计划中提到的"推理模型"已经成为业界热点。而这两个新模型正是该计划的具体实现。再加上从"草莓哥"的炒作到Sam Altman富有深意的暗喻,都让这个"推理模型"备受关注。虽然大家对它有所耳闻,但对其实际效果可能还不太清楚。为了直观地了解这个模型的真正能力,我们不妨看看下方的评估结果。左一:o1在2024美国数学奥林匹克竞赛(AIME)资格赛中跻身美国前500名学生之列。中间:o1在竞争性编程问题(Codeforces)中排名第89个百分位(这个版本的模型还没发布),而o1-perview拿到了62个百分位。最右:在物理、生物和化学问题的基准(GPQA)o1与o1-perview都超过了人类博士水平的准确性。

OpenAI:我憋了个新大招儿,它叫o1-perview/mini

但推理模型的准确率不断攀升、甚至达到完全可信的地步确实是一件非常惊喜又恐怖的事情。之前让模型干创意的活儿,现在又能干精确的活儿,这属于全场景覆盖!这意味着AI技术可以渗透到更多行业、更多高精尖业务中去!同时,我回想起老师曾经对我说过的一句话:"不管现在的大模型处理速度多慢,操作多么繁琐,只要能保证最终结果的正确性,它就拥有无限的可能性。"我觉得老师的话不无道理,不要看现在新模型的推理速度慢,但这些都可以通过增配新硬件去解决,只要钱到位,这都不是问题。况且,这也可能是慢思考系统的一种呢?你说对吧!再者,在今年上半年,甚至是上个月,很多人还在担忧大模型的前景。但OpenAI推出的新模型无疑给这个行业注入了一剂强心剂,为整个领域带来了新的活力和希望。这是令人赞叹和振奋的。更令人兴奋的是,如果结合OpenAI提出的通往AGI(通用人工智能)的分级来看,我们正在从第一级向第二级迈进。随着模型的不断完善,甚至后面出现GPT-5,我们将可能会慢慢见证AI从单纯的生成工具向真正的智能体转变。让我们睁开眼好好看看这世界,看看这一切。未来可期。以上。附:

OpenAI:我憋了个新大招儿,它叫o1-perview/mini

而且你会发现,4o这个模型也被OpenAI当作对标狠狠地刷了一把自家的脸。看完这个评测结果后,我觉得4o和o1在推理方面,基本等于电瓶车和宾利的差距了...不信你看下方详细测试结果这里的红色线代表4o的得分,而绿色线代表o1的得分,一眼扫过去,没有哪项得分结果是4o能盖过o1的。不过等等,这里有个问题,那就是:OpenAI声称的“超过人类博士水平”是怎么测的?OpenAI在新page中也对这个做了答复:“我们还在GPQA diamond上评估了o1,这是一个困难的智力基准测试,用于测试化学、物理和生物学方面的专业知识。为了将模型与人类进行比较,我们招募了拥有博士学位的专家来回答GPQA-diamond的问题。我们发现o1的表现超越了这些人类专家,成为第一个在这个基准测试上做到这一点的模型。”这么看来,这个测试还是较为可信的,不过OpenAI在“开大”以后,也谦虚了一把,他们是这样说的:“这些结果并不意味着o1在所有方面都比博士更有能力——只是说明该模型在解决一些预期博士能够解决的问题上更加熟练。在其他几个机器学习基准测试上,o1改进了最先进的水平。”

其他人在问
O1和以前的有什么区别?
O1 与以前的模型相比,有以下区别: 1. 在人类偏好测试中,文字生成方面人类更倾向于 4o 的回复,而在数据分析、编码和数学等大量推理类别中,O1preview 的回复更受评测人员青睐。 2. O1 的出色推理表现源自思维链技术,且此次的思维链相比在 4o 上有很大改进,例如通过强化学习,O1 学会了磨练思维链并改进策略、识别和纠正错误、分解棘手步骤、尝试不同方法等。 3. 作为早期模型,O1 还不具备使 ChatGPT 有用的一些功能,如浏览网页获取信息、上传文件和图像。但对于复杂推理任务是重大进步,代表了新的 AI 能力水平。 4. 在一些竞赛和基准测试中表现出色,如在 2024 美国数学奥林匹克竞赛(AIME)资格赛中跻身美国前 500 名学生之列,在竞争性编程问题(Codeforces)中 o1perview 拿到 62 个百分位,在物理、生物和化学问题的基准(GPQA)中 O1 与 O1perview 都超过了人类博士水平的准确性。
2024-09-16
OPENai是一家什么样的公司
OpenAI 是一家人工智能研究公司,成立于 2015 年,总部位于美国旧金山。其使命是推进人工智能技术的发展,为全球创造更加安全、智能的未来。OpenAI 早期是个非营利机构,后来改成了有限营利形式。 以下是 OpenAI 的一些相关时间线事件: 11 月 18 日,OpenAI 高级研究员集体辞职,包括研究总监和 AI 风险团队负责人,跟随 CEO Sam Altman 和总裁 Greg Brockman 的离职。 11 月 18 日,面部追踪系统演示引起关注,演示视频显示沙雕风格,相关代码已发布在 GitHub。 11 月 18 日,Wikidata 发布庞大知识库,超过 120 亿个事实数据的免费知识库,有助于提高 LLMs 的事实性,支持多语言,优化信息检索和数据分析。 11 月 18 日,OpenAI 非盈利组织董事会审查,董事会成员无公司股份,微软似乎无干预权。OpenAI 以非盈利组织起步,后发展为“有限盈利”公司。 延伸阅读: Wiki:https://timelines.issarice.com/wiki/Timeline_of_OpenAI OpenAI Blog:https://openai.com/blog/
2024-08-22
OpenAI 是 AGI吗?
OpenAI 目前尚未实现完全的 AGI(通用人工智能)。GPT7 原计划在 2026 年发布,但因埃隆·马斯克的诉讼而暂停。2027 年计划发布的 Q 2025(GPT8)有望实现完全的 AGI。AGI 通常被定义为能够完成任何聪明人类所能完成的智力任务的人工智能。 在性能预测方面,特斯拉训练的“Optimus”机器人通过人类示范学习抓取物体,可快速扩展到许多任务。当在互联网上所有可用数据基础上训练一个比 GPT4 大 100 倍、与人类大脑大小相当的模型时,可能会有惊人表现。例如,能生成具有准确物理效果的图像和视频,意味着具备常识推理和理解能力。 此外,关于 OpenAI 所开发的 AI,存在诸多讨论,如工程师们在公司自助餐厅里辩论其新能力的意义、可能导致的工作过时问题,以及是否有道德义务告知世界更多或更少相关信息等。同时,还存在关于如何防止 AI 及其后继者造成破坏的思考。
2024-08-19
openai的playground怎么用,我想了解一下
关于 openai 的 playground 的使用方法如下: 1. 三个可选的模式(Mode):Chat 聊天、Complete 补全(已弃)、Edit 编辑(已弃); 2. 可选的模型(Model):OpenAI 公布的所有 GPT 模型都可以选; 3. 提示词结构(Prompt structure):区分了 SYSTEM 和 USER 两个对话框; 4. 温度(Temperature):控制 GPT 生成的文本的随机性的参数,取值范围为 0 到 2 之间(默认值为 1); 5. 频率惩罚和存在惩罚(Frequency penalty and Presence penalty):这两个参数都是用来调控文本生成过程中某些词汇出现的频率和次数的。
2024-04-21
调用openai的api的前提条件,是否需要成为plus用户
调用OpenAI的API并不需要成为Plus用户。OpenAI的API和Plus用户是两个独立的服务。以下是调用OpenAI API的基本步骤¹²: 1. 创建OpenAI账户:首先,你需要在OpenAI的官网上注册一个账户。 2. 获取API密钥:登录到你的OpenAI账户,然后在API Keys页面创建一个新的API密钥。 3. 安装OpenAI库:在你的Python环境中安装OpenAI库。 4. 设置环境变量:将你的API密钥添加到环境变量中,这样你就可以在代码中使用它了。 5. 调用API:现在,你可以开始使用OpenAI的API了。 请注意,使用OpenAI的API可能需要付费,并且需要遵守OpenAI的使用政策。在中国使用OpenAI API需要可以访问OpenAI的网络环境,并且账户需要完成绑卡操作。如果你在国内无法直接访问OpenAI,你可以考虑使用第三方的OpenAI API服务。
2024-04-21
如何利用openai进行logical回归分析
逻辑回归分析是一种常用的统计方法,用于预测二元或多元分类变量的可能性。在Python中,我们通常使用像`scikitlearn`这样的库来进行逻辑回归分析。以下是一个简单的逻辑回归分析的例子: ```python from sklearn.linear_model import LogisticRegression from sklearn.model_selection import train_test_split from sklearn.metrics import classification_report import pandas as pd 假设我们有一个名为'data.csv'的数据集,其中'feature1'和'feature2'是特征,'target'是目标变量 data = pd.read_csv 分割数据集为训练集和测试集 X_train, X_test, y_train, y_test = train_test_split 创建逻辑回归模型 model = LogisticRegression 训练模型 model.fit 预测测试集 predictions = model.predict 打印分类报告 print ``` 这段代码首先从一个CSV文件中读取数据,然后将数据分割为训练集和测试集。然后,它创建一个逻辑回归模型,并使用训练数据对其进行训练。最后,它使用测试数据进行预测,并打印出分类报告,以评估模型的性能。 请注意,这只是一个基本的示例,实际的数据分析可能需要更复杂的数据预处理和模型调整步骤。此外,您需要安装`scikitlearn`和`pandas`库才能运行此代码¹²。 希望这些信息对您有所帮助!
2024-04-21