AI 能够“思考”主要基于以下几个方面:
那么,模型在停下来思考时到底在做什么呢?我们可以回到2016年3月,地点是首尔。在那里发生了深度学习历史上具有划时代意义的时刻:AlphaGo对战围棋传奇李世石。这不仅仅是一场AI对人类的胜利,也是AI开始展示超越简单模式模仿、真正“思考”的开端。与早期的游戏AI系统(如深蓝)不同,AlphaGo在预训练时不仅模仿了人类专家的决策,它还会在作答前“停下来思考”。在推理阶段,AlphaGo会模拟多个未来可能的棋局,评估它们的得分,然后选择最优的应对方式。它使用的时间越多,表现越好。如果没有推理时计算,AlphaGo无法击败顶尖的人类棋手,但随着推理时间的增加,它的表现逐步提升,最终超过了人类。将这一概念移植到LLM上的难点在于如何构建价值函数,也就是如何对模型的响应进行评分。如果是围棋,模型可以通过模拟对局直到结束来确定最佳策略。如果是编程,可以测试代码的正确性。但如果是评估一篇文章的初稿、制定旅行计划或总结文件的关键术语,该如何打分呢?这就是推理在目前技术中的难点,也是Strawberry在逻辑领域(如编程、数学、科学)表现强大,但在较为开放的领域(如写作)表现相对不足的原因。虽然Strawberry的具体实现细节仍是保密的,但核心思想是围绕模型生成的“思维链”进行强化学习。对这些思维链的审查表明,模型正在发生一些类似人类思维的突破性变化。例如,o1展现了遇到瓶颈时能够“回头反思”的能力,这是一种推理时间扩展的自然结果。它还能像人类一样通过可视化思考来解决几何问题,甚至能够以超越人类的方式解决编程难题。
技术范式的演进Scaling Law初遇瓶颈Scaling Law效果放缓是2024年贯穿整年的争论。Scaling Law(规模定律)指的是在模型预训练中,只要三个关键因素——模型大小、数据量、训练时间(计算量)不断增长,模型性能就能大斜率指数级爆发式提升。足够的规模带来——“涌现”,即自发地产生复杂智能,完成复杂问题的推理、并形成非同分布下的泛化性提升。相信Scaling Law,是OpenAI的梦幻发展和这一代大模型能力梦幻提升的起点。而2024年整年,一个争论笼罩着AI界——Scaling Law是正确的,但在现实中,Scaling Law是不是已经触及天花板?算力需求已经达到惊人规模,xAI正在建设10万卡数据中心;基础设施跟不上发展速度,OpenAI提出的5吉瓦数据中心计划几乎相当于纽约州五分之一的居民用电量;最关键的是,正如OpenAI前首席科学家Ilya Sutskever所言,优质数据已接近极限。而合成数据训练的“近亲繁殖”问题,更可能过拟合导致模型能力的长期衰退。然而,OpenAI的o系列模型带来了转机。新的Scaling Law——慢思考与快思考人类对AGI的追求,莫不如说是人类对完全创造另一个“人类”的疯狂幻想,而要让模型“思考”,最重要的是“大脑”。研究人员相信,人的思考其实是细微电流通过神经元,因此如果有足够大、足够接近人脑的人工神经网络,它就可以实现人脑的工作——思考。在人类心理学中,诺贝尔经济学奖得主丹尼尔·卡尼曼提出了著名的“系统1”和“系统2”理论:人类的思维过程分为快速、直觉的“系统1”和缓慢、深思熟虑的“系统2”。
当我们使用AI工具时,经常会遇到这样的困惑:AI给出的答案虽然看起来不错,但我们很难理解它是如何得出这个结论的。这就像是一个黑盒子,输入问题后直接得到答案,中间的思考过程完全不可见。这种不透明性不仅影响了我们对AI的信任,也让我们难以判断答案的可靠性。HiDeepSeek就是为了解决这个问题而设计的工具。它的核心目标很简单:让AI像人类交流时那样,在给出答案的同时,也展示出思考的过程。举个例子,当你问一个复杂的问题时,AI会先说"让我想想...",然后逐步展开它的分析过程,最后才给出结论。这样的过程不仅让答案更可信,也能帮助我们发现AI可能存在的误解或偏差。在技术层面,HiDeepSeek通过一套特别的规则来实现这个目标。它要求AI在思考时要像人类一样自然,可以提出疑问,可以修正错误,甚至可以说"等等,我想到了一个更好的方法"。这种设计让AI的回答不再是冰冷的结论,而是一个可以跟踪、可以理解的思考过程。比如说,当一个老师使用HiDeepSeek来准备教案时,AI不会直接给出一个教学方案,而是会先分析教学目标,思考学生可能遇到的困难,然后才逐步设计教学步骤。这个过程中的每一个想法、每一个考虑都会清晰地展示出来,让老师能够根据自己的经验来判断这个方案是否合适。总的来说,HiDeepSeek是一个让AI思维过程变得透明的工具。它不是要让AI变得更聪明,而是要让AI的思考过程变得更容易理解。虽然这种"思维"实际上是一种模拟,但它确实能帮助我们更好地理解和使用AI,让AI成为更好的助手而不是神秘的黑盒子。