目前中国与国外的 AI 模型存在一定差距,但也有自身的优势和进步。
在一些方面,国外模型如 Llama 3.1 在推理、数学、多语言和长上下文任务中能够与 GPT-4 相抗衡,首次缩小了开放模型与专有前沿的差距。谷歌 DeepMind 与纽约大学团队的 AlphaGeometry 在奥林匹克级几何问题基准测试中表现出色。GPT 4 Turbo 在 SuperCLUE 测评中的总分遥遥领先,国外模型的平均成绩也相对较高。
然而,中国的 AI 模型也在不断发展。由 DeepSeek、零一万物、知谱 AI 和阿里巴巴开发的模型在 LMSYS 排行榜上取得优异成绩,尤其在数学和编程方面表现突出。国内的最强模型能与美国生产的第二强前沿模型竞争,在某些子任务上挑战了 SOTA。国内模型更注重计算效率,以弥补 GPU 访问的限制,并学会更有效地利用资源。例如 DeepSeek 在推理过程中通过多头隐式注意力减少内存需求,并且改进了 MoE 架构。零一万物更加关注数据集的建设。
在专项基准如语言与知识方面,GPT-4 Turbo 依然领先,但国内大模型也表现相对较好,有 14 个模型的得分高于 GPT3.5,有 9 个模型的得分高于 Gemini-Pro。在中文语言与知识能力上,国内大模型已基本追赶上国外头部大模型,未来有可能率先形成超越。
总体而言,国内外差距依然存在,但国内大模型在过去一年有了长足的进步,平均水平差距在缩小。
[title]2024人工智能报告|一文迅速了解今年的AI界都发生了什么?[heading2]二、2024国内VS国外AI企业,竞争达到白热化阶段Llama 3.1是迄今为止最大版本,其在推理、数学、多语言和长上下文任务中能够与GPT-4相抗衡。这标志首次开放模型缩小与专有前沿的差距。上图为人们关于Llama 3.1 405B与GPT,Claude的评估,win:胜Tie:平Loss:输借助AlphaGeometry,符号推理引擎得以拯救谷歌DeepMind与纽约大学团队使用符号引擎生成了数百万条合成定理和证明,利用这些数据从零开始训练了一个语言模型。AlphaGeometry在语言模型提出新构造,与符号引擎执行推理交替进行,直至找到解决方案。令人印象深刻的是,AlphaGeometry在奥林匹克级几何问题基准测试中解决了30题中的25题,接近人类国际数学奥林匹克金牌得主的表现。第二好的AI表现仅得10分。它还展示了泛化能力——例如,发现2004年国际数学奥林匹克问题中的一个具体细节对于证明并非必要“尽管受到制裁,中国LLMs在排行榜上风头正劲”由DeepSeek、零一万物、知谱AI和阿里巴巴开发的模型在LMSYS排行榜上取得了优异的成绩,尤其在数学和编程方面表现尤为出色。中国的最强模型与美国生产的第二强前沿模型竞争,同时在某些子任务上挑战了SOTA。中国模型更能优先考虑计算效率,以弥补GPU访问的限制,并学会比美国同行更有效地利用资源。中国模型各有优势。例如,DeepSeek在推理过程中通过多头隐式注意力减少内存需求,并且改进了MoE架构。同时,零一万物更加关注数据集的建设而不是建筑创新。由于在像Common Crawl这样的流行存储库中相对缺乏数据,因此它更加关注建立强大的中文数据集来弥补不足。
国内外差距依然明显。GP T 4 T u r b o总分[heading1]国外模型平均成绩VS国内模型平均成绩[content]90.63分遥遥领先,高于其他国内大模型及国外大模型。其中国内最好模型文心一言4.0(API)总分79.02分,距离GPT4-Turbo有11.61分,距离GPT4(网页)有4.9分的差距。必须看到的是,过去1年国内大模型已经有了长足的进步。综合能力超过G P T 3.5和Gemini-Pro的模型有11个,比如百度的文心一言4.0、阿里云的通义千问2.0和Qw e n 72B-Chat、OPPO的AndesGPT、清华&智谱AI的智谱清言、字节跳动的云雀大模型等都有比较好的表现。•在SuperCLUE测评中,国外模型的平均成绩为69.42分,国内模型平均成绩为65.95分,差距在4分左右。另外国内开源模型在中文上表现要好于国外开源模型,如百川智能的Baichuan2-13B-Chat、•可以看出,国内外的平均水平差距在缩小,11月差距在10分左右。阿里云的Qwen-72B、Yi -34B-Cha t均优于Llama2-13B-Chat。
[title]中文大模型基准测评2023年度报告[heading1]专项基准[heading1]SuperCLUE基准-语言与知识测评表现测评分析语言与知识,考察模型的能力包括:1.生成与创作;2.语言理解与抽取;3.上下文对话;4.角色扮演;5.知识与百科。在语言与知识的测评中,GPT-4 Turbo依然领先,是唯一超过90分的大模型。国内大模型也表现相对较好,有14个模型的得分高于GPT3.5,有9个模型的得分高于Gemini-Pro。其中OPPO的AndesGPT、阿里云的通义千问2.0、月之暗面的Moonsho t分列国内1-3位,较为接近GPT4。在开源模型中,零一万物的Yi-34B-Chat、阿里云的Qwen-72B-Chat、百川智能的Baichuan2-13B-Chat取得了不错的成绩,均超过了50分,分列国内模型的1-3名。总体来看,在中文语言与知识能力上,国内大模型已基本追赶上国外头部大模型,在未来也最可能成为率先形成超越的维度之一。