根据目前的测评报告,在国内大模型中,得分较高的有文心一言 4.0(API),其总分 79.02 分。在工具使用的测评中,智谱清言表现不俗,取得 83.78 的高分,排名国内模型第一。过去八个月国内模型在 SuperCLUE 基准上的第一名多次为文心一言 4.0。综合来看,国内大模型在不断进步,与国外模型的差距在逐渐缩小,但不同模型在不同方面的表现各有优劣。
外大模型。其中国内最好模型文心一言[heading4]4.0(API)总分79.02分,距离GPT4-Turbo有[content]11.61分,距离GPT4(网页)有4.9分的差距。必须看到的是,过去1年国内大模型已经有了长足的进步。综合能力超过G P T 3.5和Gemini-Pro的模型有11个,比如百度的文心一言4.0、阿里云的通义千问2.0和Qw e n 72B-Chat、OPPO的AndesGPT、清华&智谱AI的智谱清言、字节跳动的云雀大模型等都有比较好的表现。•在SuperCLUE测评中,国外模型的平均成绩为69.42分,国内模型平均成绩为65.95分,差距在4分左右。另外国内开源模型在中文上表现要好于国外开源模型,如百川智能的Baichuan2-13B-Chat、•可以看出,国内外的平均水平差距在缩小,11月差距在10分左右。阿里云的Qwen-72B、Yi -34B-Cha t均优于Llama2-13B-Chat。
[title]VIRTUAL[heading1]国内大模型关键进展第5部分[heading2]1.语言与知识2.专业与技能3.工具使用4.传统安全[heading3]语言与知识-示例(上下文对话)[heading4]PCI-TransGPT2.Bob不是最年轻的,也不是最年长的。2.Bob的年龄既不是最小的,也不是最大[heading4]GPT4(网页)SuperCLUE基准-工具使用能力测评表现测评分析工具使用,考察模型的能力包括:检索API、调用API、规划API、通用工具使用。在工具使用的测评中,GPT-4 Turbo取得了满分。国内大模型中智谱清言表现不俗,取得了83.78的高分,排名国内模型第一。仅随其后的是文心一言4.0(API)、通义千问2.0、Yi-34B-Chat、AndesGPT均有超过70分的表现。其他国内模型同样有不错的表现,超过GPT3.5的模型有12个。在开源模型中,Baichuan2-13B-Chat、Xverse-13B-2-Caht的表现可圈可点,均超过GPT3.5以及众多闭源模型。
文心一言(网页v2.2.0)360智脑360智脑�第二名通义千问2.0Moonshot