Chat with Wiki - 国内评分最高的国内大模型是什么

Answer

根据目前的测评报告，在国内大模型中，得分较高的有文心一言 4.0（API），其总分 79.02 分。在工具使用的测评中，智谱清言表现不俗，取得 83.78 的高分，排名国内模型第一。过去八个月国内模型在 SuperCLUE 基准上的第一名多次为文心一言 4.0。综合来看，国内大模型在不断进步，与国外模型的差距在逐渐缩小，但不同模型在不同方面的表现各有优劣。

Content generated by AI large model, please carefully verify (powered by aily)

References

2023年度中文大模型基准测评报告.pdf

外大模型。其中国内最好模型文心一言[heading4]4.0(API)总分79.02分，距离GPT4-Turbo有[content]11.61分，距离GPT4(网页)有4.9分的差距。必须看到的是，过去1年国内大模型已经有了长足的进步。综合能力超过G P T 3.5和Gemini-Pro的模型有11个，比如百度的文心一言4.0、阿里云的通义千问2.0和Qw e n 72B-Chat、OPPO的AndesGPT、清华&智谱AI的智谱清言、字节跳动的云雀大模型等都有比较好的表现。•在SuperCLUE测评中，国外模型的平均成绩为69.42分，国内模型平均成绩为65.95分，差距在4分左右。另外国内开源模型在中文上表现要好于国外开源模型，如百川智能的Baichuan2-13B-Chat、•可以看出，国内外的平均水平差距在缩小，11月差距在10分左右。阿里云的Qwen-72B、Yi -34B-Cha t均优于Llama2-13B-Chat。

2023年度中文大模型基准测评报告.pdf

[title]VIRTUAL[heading1]国内大模型关键进展第5部分[heading2]1.语言与知识2.专业与技能3.工具使用4.传统安全[heading3]语言与知识-示例（上下文对话）[heading4]PCI-TransGPT2.Bob不是最年轻的，也不是最年长的。2.Bob的年龄既不是最小的，也不是最大[heading4]GPT4(网页)SuperCLUE基准-工具使用能力测评表现测评分析工具使用，考察模型的能力包括：检索API、调用API、规划API、通用工具使用。在工具使用的测评中，GPT-4 Turbo取得了满分。国内大模型中智谱清言表现不俗，取得了83.78的高分，排名国内模型第一。仅随其后的是文心一言4.0(API)、通义千问2.0、Yi-34B-Chat、AndesGPT均有超过70分的表现。其他国内模型同样有不错的表现，超过GPT3.5的模型有12个。在开源模型中，Baichuan2-13B-Chat、Xverse-13B-2-Caht的表现可圈可点，均超过GPT3.5以及众多闭源模型。

2023年度中文大模型基准测评报告.pdf

文心一言(网页v2.2.0)360智脑360智脑�第二名通义千问2.0Moonshot