Claude 3.7 在多个方面表现出色。相较于 DeepSeek R1,除了数学方面,带有扩展思考模式的 Claude 3.7 在任务指令跟随、通用推理、多模态能力和自主编程方面表现出色,拿下最高分。在多项基准测试中,“扩展思考”模式加持下的 Claude 3.7 在数学、物理、指令执行、编程等方面刷新了 SOTA,编码能力暴涨 10%以上,几乎完全碾压 o3-mini 和 DeepSeek R1,与 Grok 3 不相上下。宾夕法尼亚大学沃顿商学院的教授 Ethan Mollick 对 Claude 3.7 进行了测试,对其能力既惊叹不已又感到一丝不安。例如,Claude 3.7 能通过自然对话或文档获得可运行的程序,还能对需求进行预判和采用新方法思考,生成超出要求的成果。参考资料:https://www.anthropic.com/news/claude-3-7-sonnet https://x.com/alexalbert__/status/1894093648121532546 https://x.com/AnthropicAI/status/1894092430560965029 https://www.oneusefulthing.org/p/a-new-generation-of-ais-claude-37
相较于最新Grok 3 Beta模型,Claude 3.7 Sonnet(64k extended thinking)在推理方面几乎打成平手。而在数学、视觉推理方面,又略逊色于Grok 3 Beta。与o3-mini、DeepSeek R1相比,除了数学,带有扩展思考模式的Claude 3.7 Sonnet拿下最高分。Claude 3.7 Sonnet在任务指令跟随、通用推理、多模态能力和自主编程方面表现出色,扩展思考模式在数学和科学领域带来了显著提升。除了传统基准测试外,它甚至在宝可梦游戏测试中超越了所有先前模型AI编码智能体,一次完成45分钟任务
憋了大半年,Anthropic终于放出大招——首款混合推理模型Claude 3.7 Sonnet重磅登场!这是Claude系列中,迄今为止最智能的模型,几乎能够及时响应,并进行可扩展的、逐步的思考。简言之,一个模型,两种思考方式。假设你想破解一个博弈论数学问题——蒙提霍尔问题,扔给Claude 3.7 Sonnet,然后同时选择「Extended」模式。它便会展示详细CoT过程,用时52秒就完成了。最关键的是,Claude 3.7 Sonnet目前所有人免费可用,目前「扩展思考」模式还没有上线。在多项基准测试中,「扩展思考」模式加持下的Claude 3.7 Sonnet,在数学、物理、指令执行、编程等刷新SOTA。相较于上一代Claude 3.5 Sonnet,数学、编码能力更是暴涨10%以上。除了数学,Claude 3.7 Sonnet(64k extended thinking)几乎完全碾压o3-mini,DeepSeek R1,与Grok 3不相上下。API用户可以精确控制模型的思考时间可以说,Claude 3.7 Sonnet完全是一个最强「软件工程AI」。在SWE-bench上,创下了70.3%的高分。与此同时,首款「智能体编程」工具Claude Code(预览版)也在今天问世了。如今,它已经成为Anthropic内部,不可或缺的工具。在早期测试中,Claude一次性就完成人类需要45分钟的任务。也就是说,你做产品经理,AI给你打工写代码。
宾夕法尼亚大学沃顿商学院的教授Ethan Mollick已经在过去几天对Claude 3.7进行了测试,Claude 3.7经常给他带来与第一次使用ChatGPT-4时相同的感觉:既惊叹不已,又对它们的能力感到一丝不安。以Claude的原生编码能力为例,我们现在可以通过自然对话或文档获得可运行的程序,而无需任何编程技能。例如,他向Claude提供了一份关于新型AI教育工具的提案,并在对话中要求它「以3D形式展示所提议的系统架构,并使其具有交互性」。结果,它生成了我们论文中核心设计的交互式可视化效果,没有任何错误。这些图形虽然很简洁,但并不是最令人印象深刻的部分。真正让人惊叹的是,Claude自主决定将其制作成一个逐步演示来解释相关概念,而这并不是我们要求它做的。这种对需求的预判和对新方法的思考是AI领域中的一项新突破。再举一个更有趣的例子,Ethan Mollick告诉Claude:「给我做一个交互式的时间机器装置,让我可以穿越回过去,并发生一些有趣的事情。挑选一些不寻常的时间点让我回去...」以及「添加更多图像。」仅仅这两条提示之后,就出现了一个功能齐全的交互式体验,甚至还配有粗糙但迷人的像素图像(这些图像实际上令人惊讶地印象深刻——AI必须使用纯代码「绘制」这些图像,而无法看到它正在创建的内容,就像一个被蒙住眼睛的艺术家。参考资料:https://www.anthropic.com/news/claude-3-7-sonnethttps://x.com/alexalbert__/status/1894093648121532546https://x.com/AnthropicAI/status/1894092430560965029https://www.oneusefulthing.org/p/a-new-generation-of-ais-claude-37