目前中国大模型与世界仍存在差距,但也有了显著进步。
在 2023 年度中文大模型基准测评中,国外的 GPT-4 Turbo 总分 90.63 分遥遥领先,国内最好的模型文心一言 4.0(API)总分 79.02 分,与 GPT-4 Turbo 有 11.61 分的差距,与 GPT-4(网页)有 4.9 分的差距。国外模型平均成绩为 69.42 分,国内模型平均成绩为 65.95 分,差距在 4 分左右。
不过,过去 1 年国内大模型进步明显,综合能力超过 GPT 3.5 和 Gemini-Pro 的模型有 11 个,如百度的文心一言 4.0、阿里云的通义千问 2.0 等都有较好表现。在专业与技能方面,GPT-4 Turbo 领先幅度较大,但国内的文心一言 4.0 表现不俗。总体来看,国内第一梯队大模型与国外最好模型在专业与知识能力上仍有较大距离,但差距正在不断缩小。
另外,国内开源模型在中文上表现优于国外开源模型。从国内 TOP19 大模型的数量来看,创业公司和大厂的占比几乎持平。
GPT-4(网页版)GPT-4(API)智谱清言通义千问2.0AndesGPT(OPPO)文心一言4.0(API)MoonShot(KimiChat)Claude2360智脑Qwen-72B-Chat文心一言4.0(网页版)注:1.两个维度的组成。基础能力,包含:专业与技能、语言与知识(不包括角色扮演)、传统安全;应用能力,包括:工具使用、角色扮演。基础能力1.2.四个象限的含义。它们代表大模型所处的不同阶段与定位,其中【潜力探索者】代表模型正在技术探索阶段拥有较大潜力;【技术领跑者】代表模型聚焦基础技术研究;【实用主义者】代表模型在场景应用上处于领先定位;【卓越领导者】代表模型在基础和场景应用上处于领先位置,引领国内大模型发展。国内外大模型总体表现国内外大模型SuperCLUE基准得分国内对外差距情况说明国内外差距依然明显。GP T 4 T u r b o总分90.63分遥遥领先,高于其他国内大模型及国外大模型。其中国内最好模型文心一言4.0(API)总分79.02分,距离GPT4-Turbo有11.61分,距离GPT4(网页)有4.9分的差距。国外模型平均成绩VS国内模型平均成绩
周星驰的2016年春节贺岁档奇幻喜剧片《美人鱼》打破了华语电影的票房纪录,成为中国内地首部票房过30亿的影片。这部电影以其独特的幽默风格和富有创意的故事情节吸引了大量观众,使得"30+亿票房"不再是遥不可及的目标。《美人鱼》的票房成功,标志着中国电影市场的巨大潜力和观众对于优质电影的热情。该片的票房成绩不仅刷新了华语电影的全球票房纪录,也证明了周星驰在中国电影市场的巨大影响力。周星驰执导的电影《美人鱼》是中国内地首部票房过30亿的影片,打破了华语电影的票房纪录。这也是周星驰执导的电影中,有四部成为华语电影全球年度票房冠军的一部。SuperCLUE基准-专业与技能测评表现测评分析专业与技能,考察模型的能力包括:计算、逻辑与推理、代码。在专业技能与知识的测评中,GPT-4 Turbo领先幅度较大,总分97分是唯一过90分且接近满分的大模型。国内大模型中文心一言4.0表现不俗,取得79.62的高分。较GPT4的API版本仅低1.53分,是国内模型中唯一接近80分的大模型。仅随其后的是通义千问2.0、Moonshot等模型。其中有11个大模型有超过GPT3.5的表现。在开源模型中,阿里云的Qwen-72B-Chat表现可圈可点,是国内开源模型中唯一超过60分的模型。总体来看,在专业与知识能力上,国内第一梯队大模型与国外最好模型依然有较大距离,但可以看到的是差距正在不断缩小。
必须看到的是,过去1年国内大模型已经有了长足的进步。综合能力超过G P T 3.5和Gemini-Pro的模型有11个,比如百度的文心一言4.0、阿里云的通义千问2.0和Qw e n 72B-Chat、OPPO的AndesGPT、清华&智谱AI的智谱清言、字节跳动的云雀大模型等都有比较好的表现。•在SuperCLUE测评中,国外模型的平均成绩为69.42分,国内模型平均成绩为65.95分,差距在4分左右。另外国内开源模型在中文上表现要好于国外开源模型,如百川智能的Baichuan2-13B-Chat、阿里云的Qwen-72B、Yi-34B-Cha t均优于Llama2-13B-Chat。•可以看出,国内外的平均水平差距在缩小,11月差距在10分左右。国内大模型竞争格局国内大模型综合表现-SuperCLUE创业公司(9)vs大厂(10)通过SuperCLUE测评结果发现,国内大模型的第一梯队有了更多新的模型加入。头部模型如文心一言4.0、通义千问2.0引领国内大模型的研发进度,部分高质量大模型紧追不舍,分别在闭源应用和开源生态中形成自己独特的优势。创业公司大厂•从国内TOP19大模型的数量来看,创业公司和大厂的占比几乎持平。大厂和创业公司平均成绩对比大厂平均69.42