以下是 OpenAI 最近的一些新闻:
另一个意外的好用的用法是把Cursor当作一个搜索引擎来用。考虑到Cursor自己并不支持上网搜索,能做到这一点主要是依赖于这个工具优秀的扩展性。如我们在上一篇[魔改Cursor的文章](https://yage.ai/cursor-to-devin.html)中提到的,我们可以给它写一个小爬虫工具,进行搜索和网页内容抓取,然后在.cursorrules这个文件里叙述这两个工具的用法,就等于给它拓展了上网搜索和浏览的功能。而且我做了几个或简单或复杂的尝试,它的回答一如既往的惊艳,比如我问它OpenAI最近有什么新闻,它准确地从搜索的结果中梳理出了12天连续直播的相关结果,并且提到昨天OpenAI把o1这个模型在API中间release了。紧接着我就追问了,o1不是早就出来了吗?它又通过搜索之后可以知道,o1之前发布的是o1 Preview,是一个历史的版本,在昨天发布的版本是正式版,花费的用来思考的token少了60%。而我用类似的关键字在GPT中间搜索的时候,则得不到这么惊艳的结果。比如GPT给出的结果还在说OpenAI发布了最新的模型GPT-4o,还活在上古时代。(BTW上图也是用cursor直接生成的,提示词是我现在有两个图片1.jpeg.2.jpeg.我想把两个变成一样高(矮的那个的高度),然后左右合并拼成一张图,中间有一个10px的边框。另存为cursor-entry-search.jpeg)
凌晨2点半写的这篇稿子,行了,也顾不上睡觉了,咱们就开门见山直接说吧!这回Sam可是真不放鸽子了。北京时间9月13号凌晨1点多,OpenAI宣布推出了模型o1-preview与o1-mini(真正的o1版本将在后续开放)。而拥有Plus版本的用户会陆续收到新模型权限,同时可以直接在Web客户端中进行尝鲜体验。OpenAI最近公布的模型发布计划中提到的"推理模型"已经成为业界热点。而这两个新模型正是该计划的具体实现。再加上从"草莓哥"的炒作到Sam Altman富有深意的暗喻,都让这个"推理模型"备受关注。虽然大家对它有所耳闻,但对其实际效果可能还不太清楚。为了直观地了解这个模型的真正能力,我们不妨看看下方的评估结果。左一:o1在2024美国数学奥林匹克竞赛(AIME)资格赛中跻身美国前500名学生之列。中间:o1在竞争性编程问题(Codeforces)中排名第89个百分位(这个版本的模型还没发布),而o1-preview拿到了62个百分位。最右:在物理、生物和化学问题的基准(GPQA)o1与o1-preview都超过了人类博士水平的准确性。而且你会发现,4o这个模型也被OpenAI当作对标狠狠地刷了一把自家的脸。看完这个评测结果后,我觉得4o和o1在推理方面,基本等于电瓶车和宾利的差距了...不信你看下方详细测试结果这里的红色线代表4o的得分,而绿色线代表o1的得分,一眼扫过去,没有哪项得分结果是4o能盖过o1的。
🔔Xiaohu.AI日报「2月9日」✨✨✨✨✨✨✨✨1⃣️🛡️OpenAI更新风控与账号共享识别力度识别降智:OpenAI可能会偷偷降低ChatGPT模型的调用规格,如o1-pro降级为o1。识别方法:时长法、难题测试、工具可用性检查、POW值查询。解决方案:使用苹果客户端、优质IP访问、测试免费账号避免主账号受影响。🔗[https://x.com/imxiaohu/status/1888581690995704239](https://x.com/imxiaohu/status/1888581690995704239)2⃣️📊奥特曼谈AI推理能力进展o1(2024年9月):排名全球第9800名。o3(2024年12月):提升至第175名。现内部模型已达全球第50名,预计今年内登顶第一。🔗[https://x.com/imxiaohu/status/1888506234858319876](https://x.com/imxiaohu/status/1888506234858319876)3⃣️🖼️Gemini 2.0图像编辑能力展示纯文字指令修改图片,精准操控。Photoshop或面临终结?🔗[https://x.com/imxiaohu/status/1888501863089119532](https://x.com/imxiaohu/status/1888501863089119532)