目前很难确切地指出截止今天最强的模型是哪一个。以下是一些表现出色的模型:
需要注意的是,模型的性能评估会因不同的基准测试和应用场景而有所差异,而且技术在不断发展,最强模型的定义也可能随之变化。
我们最强大的模型Gemini Ultra在我们报告的32个基准测试中,在30个基准测试中取得了SOTA,其中包括12个流行的文本和推理基准测试中的10个,9个图像理解基准测试中的9个,6个视频理解基准测试中的6个,以及5个语音识别和语音翻译基准测试中的5个。Gemini Ultra是第一个在MMLU上实现人类专家水平表现的模型(Hendrycks等人)。2021 a)-通过一系列考试测试知识和推理的突出基准-得分超过90%。除了文本,Gemini Ultra在具有挑战性的多模态推理任务方面取得了显著进展。例如,在最近的MMMU基准(Yue等人,2023年),其中包括关于多学科任务上的图像的问题,需要大学水平的学科知识,通过知识和深思熟虑的推理,Gemini Ultra实现了62.4%的最新技术水平,超过了之前最佳模型(GPT4V)超过5个百分点。它为视频问答和音频理解Benchmark上,获得了一个很好平衡的性能。定性评估展示了令人印象深刻的跨模态推理能力,使模型能够原生地理解和推理音频、图像和文本的输入序列(见图5和表13)。以图1所示的教育环境为例。一位老师画了一个物理问题,描述了一个滑雪者下坡的情景,而一位学生已经解决了这个问题。通过Gemini的多模态推理能力,该模型能够理解混乱的手写文字,正确理解问题的表述,将问题和解决方案转换为数学排版,识别学生在解决问题时出错的具体推理步骤,然后给出一个经过正确求解的问题的解答。这为令人兴奋的教育可能性打开了大门,我们相信Gemini模型的新的多模态和推理能力在许多领域具有重大应用。
从o1到o3的快速进化,证明了新的Scaling Law的有效。在ARC-AGI测试中,o3模型达到了87.5%的准确率,几乎与人类水平(85%)相当。这意味着在适应未知任务方面,AI已经具备了接近人类的能力。我们无法通过给GPT-4增加更多计算量,来获得这样的结果。简单地扩大我们从2019年到2023年所做的事情(采用相同的架构,在更多数据上训练一个更大的版本)是不够的。而这一次,OpenAI找到了全新的思路。o系列模型能够进行自我对话、多角度分析和自我质疑,最终得出更可靠的答案。它不再仅仅是一个信息处理工具,而是开始具备了某种程度的“思考意识”。虽然这距离完全的自我意识还很遥远,但已经展示出了朝着这个方向演进的潜力。包括Google在内的AI公司,已经都看到这个方向的潜力,正在奋力追赶。而这条路,起码还可以狂奔一整年。Scaling Law的另一端参数效率突破在关注大模型的能力极限的时候,一个容易被忽视的关键进展是,2024年,我们也看到了模型参数效率出现了很强的突破——即随着模型的代际更迭,原本在前一代模型最大参数量的版本才能完成的能力,不断被后一代模型的“轻量级模型”版本追平。通常这样的“轻量级模型”要比“大模型”的版本参数量低1-2个数量级。比如12月,Google发布的Gemini 2.0 Flash,在重要的基准能力上,直接追平甚至部分超越了Gemini 1.5 Pro,而同时,模型的速度有极大提升。OpenAI也表示,下一代o3-mini模型的推理能力,能够媲美o1模型——可以说是当前最强的模型。轻量级模型的代际能力跃升的原因可能是多重的,一个常常为人所提到的原因是,蒸馏技术的使用。
Llama 3.1是迄今为止最大版本,其在推理、数学、多语言和长上下文任务中能够与GPT-4相抗衡。这标志首次开放模型缩小与专有前沿的差距。上图为人们关于Llama 3.1 405B与GPT,Claude的评估,win:胜Tie:平Loss:输借助AlphaGeometry,符号推理引擎得以拯救谷歌DeepMind与纽约大学团队使用符号引擎生成了数百万条合成定理和证明,利用这些数据从零开始训练了一个语言模型。AlphaGeometry在语言模型提出新构造,与符号引擎执行推理交替进行,直至找到解决方案。令人印象深刻的是,AlphaGeometry在奥林匹克级几何问题基准测试中解决了30题中的25题,接近人类国际数学奥林匹克金牌得主的表现。第二好的AI表现仅得10分。它还展示了泛化能力——例如,发现2004年国际数学奥林匹克问题中的一个具体细节对于证明并非必要“尽管受到制裁,中国LLMs在排行榜上风头正劲”由DeepSeek、零一万物、知谱AI和阿里巴巴开发的模型在LMSYS排行榜上取得了优异的成绩,尤其在数学和编程方面表现尤为出色。中国的最强模型与美国生产的第二强前沿模型竞争,同时在某些子任务上挑战了SOTA。中国模型更能优先考虑计算效率,以弥补GPU访问的限制,并学会比美国同行更有效地利用资源。中国模型各有优势。例如,DeepSeek在推理过程中通过多头隐式注意力减少内存需求,并且改进了MoE架构。同时,零一万物更加关注数据集的建设而不是建筑创新。由于在像Common Crawl这样的流行存储库中相对缺乏数据,因此它更加关注建立强大的中文数据集来弥补不足。