要做一个数学智能体,以下是一些相关信息:
对我来说,它有潜力成为解决最困难问题的终极工具。所以我最初学习的是生物信息学,但后来我对AI也变得更加兴奋。因为如果你有一个可以解决所有问题的工具,对我来说,这就更加令人兴奋。而且对于x.ai来说,我特别激动的是以一种我们能够为人类建造AI,并与每个人分享的方式来解决问题,这样人们就可以进行自己的研究和理解事物。我希望它能像一股新的研究者浪潮一样,这以前是不存在的。Christian Szegedy我是Christian Szegedy。我想稍微谈谈数学在理解宇宙中的作用。所以过去的七年中,我一直致力于创造一种在数学上能与任何人类一样出色的AI。我认为这样做的原因是,即使数学是语言,基本上是纯逻辑的语言,我认为高层次的数学和逻辑推理将证明这个思想真正理解事物,而不仅仅是模拟人类。它对编程和物理学的长期发展将起到重要的作用。所以我认为,一旦AI开始展示出真正理解深层推理的能力,对我们第一步理解宇宙至关重要。Yuhuai(Tony)Wu大家好,我是Tony。和Christian一样,我一直梦想着用AI来解决数学中最困难的问题。这就是为什么我们成为了这么酷的朋友和长期合作伙伴的原因。所以实现这个目标绝对是一个非常雄心勃勃的目标。去年,我们在这个领域取得了一些非常有趣的突破,这让我们真的相信我们离我们的梦想并不远。所以我相信,凭借这样一个才华横溢的团队和丰富的资源,我非常有希望我们能够实现这个目标。Elon Musk我来提一下,我认为通常人们不太愿意自我推销。但我认为这里的人应该讲一讲,你们做过哪些值得注意的事情?所以基本上就是稍微介绍一下。Yuhuai(Tony)Wu好的,我可以再多说一下。去年,我认为我们在数学领域取得了一些非常有趣的进展。具体来说,我们与Google的一个团队合作,开发了一个名为Minerva的智能体,它实际上能够在高中考试中获得非常高的分数,实际上比普通高中生还要高。
相较于最新Grok 3 Beta模型,Claude 3.7 Sonnet(64k extended thinking)在推理方面几乎打成平手。而在数学、视觉推理方面,又略逊色于Grok 3 Beta。与o3-mini、DeepSeek R1相比,除了数学,带有扩展思考模式的Claude 3.7 Sonnet拿下最高分。Claude 3.7 Sonnet在任务指令跟随、通用推理、多模态能力和自主编程方面表现出色,扩展思考模式在数学和科学领域带来了显著提升。除了传统基准测试外,它甚至在宝可梦游戏测试中超越了所有先前模型AI编码智能体,一次完成45分钟任务
最终,仍无法实现的智能体设计的神圣圣杯是通用人工智能体——一个循环架构,其中LLM的先进功能包含了先前设计中结构化的"轨道"。这种假设的智能体将拥有动态推理、规划和自定义代码生成能力,使其能够执行任何外部系统中的操作,而不仅仅是预定义的操作。自2023年春天[BabyAGI](https://github.com/yoheinakajima/babyagi)和[AutoGPT](https://github.com/Significant-Gravitas/AutoGPT)出现以来,向这一理想目标的研究进展激增。目前,最复杂的设计是[语言智能体树搜索](https://arxiv.org/pdf/2310.04406)(LATS),它将蒙特卡洛树搜索-即[AlphaGo](https://arxiv.org/pdf/1712.01815)背后的基于模型的强化学习技术-应用于语言智能体。LATS允许智能体探索实现目标函数的多种轨迹,优先选择高回报路径,融入反馈,并在必要时回溯。这些前沿架构的开创性商业应用包括新的基础模型,如[Reflection AI](https://www.reflection.ai/),以及编码智能体,如[Cognition](https://cognition-labs.com/)、[Nustom](https://nustom.com/)和[OpenDevin/All Hands AI](https://github.com/OpenDevin/OpenDevin)。