Chat with Wiki - 中国与国外AI模型的差距

Answer

目前中国与国外的 AI 模型存在一定差距，但也有自身的优势和进步。

在一些方面，国外模型如 Llama 3.1 在推理、数学、多语言和长上下文任务中能够与 GPT-4 相抗衡，首次缩小了开放模型与专有前沿的差距。谷歌 DeepMind 与纽约大学团队的 AlphaGeometry 在奥林匹克级几何问题基准测试中表现出色。GPT 4 Turbo 在 SuperCLUE 测评中的总分遥遥领先，国外模型的平均成绩也相对较高。

然而，中国的 AI 模型也在不断发展。由 DeepSeek、零一万物、知谱 AI 和阿里巴巴开发的模型在 LMSYS 排行榜上取得优异成绩，尤其在数学和编程方面表现突出。国内的最强模型能与美国生产的第二强前沿模型竞争，在某些子任务上挑战了 SOTA。国内模型更注重计算效率，以弥补 GPU 访问的限制，并学会更有效地利用资源。例如 DeepSeek 在推理过程中通过多头隐式注意力减少内存需求，并且改进了 MoE 架构。零一万物更加关注数据集的建设。

在专项基准如语言与知识方面，GPT-4 Turbo 依然领先，但国内大模型也表现相对较好，有 14 个模型的得分高于 GPT3.5，有 9 个模型的得分高于 Gemini-Pro。在中文语言与知识能力上，国内大模型已基本追赶上国外头部大模型，未来有可能率先形成超越。

总体而言，国内外差距依然存在，但国内大模型在过去一年有了长足的进步，平均水平差距在缩小。

Content generated by AI large model, please carefully verify (powered by aily)

References

2024人工智能报告｜一文迅速了解今年的AI界都发生了什么？

[title]2024人工智能报告｜一文迅速了解今年的AI界都发生了什么？[heading2]二、2024国内VS国外AI企业，竞争达到白热化阶段Llama 3.1是迄今为止最大版本，其在推理、数学、多语言和长上下文任务中能够与GPT-4相抗衡。这标志首次开放模型缩小与专有前沿的差距。上图为人们关于Llama 3.1 405B与GPT,Claude的评估，win:胜Tie:平Loss：输借助AlphaGeometry，符号推理引擎得以拯救谷歌DeepMind与纽约大学团队使用符号引擎生成了数百万条合成定理和证明，利用这些数据从零开始训练了一个语言模型。AlphaGeometry在语言模型提出新构造，与符号引擎执行推理交替进行，直至找到解决方案。令人印象深刻的是，AlphaGeometry在奥林匹克级几何问题基准测试中解决了30题中的25题，接近人类国际数学奥林匹克金牌得主的表现。第二好的AI表现仅得10分。它还展示了泛化能力——例如，发现2004年国际数学奥林匹克问题中的一个具体细节对于证明并非必要“尽管受到制裁，中国LLMs在排行榜上风头正劲”由DeepSeek、零一万物、知谱AI和阿里巴巴开发的模型在LMSYS排行榜上取得了优异的成绩，尤其在数学和编程方面表现尤为出色。中国的最强模型与美国生产的第二强前沿模型竞争，同时在某些子任务上挑战了SOTA。中国模型更能优先考虑计算效率，以弥补GPU访问的限制，并学会比美国同行更有效地利用资源。中国模型各有优势。例如，DeepSeek在推理过程中通过多头隐式注意力减少内存需求，并且改进了MoE架构。同时，零一万物更加关注数据集的建设而不是建筑创新。由于在像Common Crawl这样的流行存储库中相对缺乏数据，因此它更加关注建立强大的中文数据集来弥补不足。

2023年度中文大模型基准测评报告.pdf

国内外差距依然明显。GP T 4 T u r b o总分[heading1]国外模型平均成绩VS国内模型平均成绩[content]90.63分遥遥领先，高于其他国内大模型及国外大模型。其中国内最好模型文心一言4.0(API)总分79.02分，距离GPT4-Turbo有11.61分，距离GPT4(网页)有4.9分的差距。必须看到的是，过去1年国内大模型已经有了长足的进步。综合能力超过G P T 3.5和Gemini-Pro的模型有11个，比如百度的文心一言4.0、阿里云的通义千问2.0和Qw e n 72B-Chat、OPPO的AndesGPT、清华&智谱AI的智谱清言、字节跳动的云雀大模型等都有比较好的表现。•在SuperCLUE测评中，国外模型的平均成绩为69.42分，国内模型平均成绩为65.95分，差距在4分左右。另外国内开源模型在中文上表现要好于国外开源模型，如百川智能的Baichuan2-13B-Chat、•可以看出，国内外的平均水平差距在缩小，11月差距在10分左右。阿里云的Qwen-72B、Yi -34B-Cha t均优于Llama2-13B-Chat。

2023年度中文大模型基准测评报告.pdf

[title]中文大模型基准测评2023年度报告[heading1]专项基准[heading1]SuperCLUE基准-语言与知识测评表现测评分析语言与知识，考察模型的能力包括：1.生成与创作；2.语言理解与抽取；3.上下文对话；4.角色扮演；5.知识与百科。在语言与知识的测评中，GPT-4 Turbo依然领先，是唯一超过90分的大模型。国内大模型也表现相对较好，有14个模型的得分高于GPT3.5，有9个模型的得分高于Gemini-Pro。其中OPPO的AndesGPT、阿里云的通义千问2.0、月之暗面的Moonsho t分列国内1-3位，较为接近GPT4。在开源模型中，零一万物的Yi-34B-Chat、阿里云的Qwen-72B-Chat、百川智能的Baichuan2-13B-Chat取得了不错的成绩，均超过了50分，分列国内模型的1-3名。总体来看，在中文语言与知识能力上，国内大模型已基本追赶上国外头部大模型，在未来也最可能成为率先形成超越的维度之一。