Chat with Wiki - superclue 在国内的评测里面什么地位，国外对标的评测是什么

Answer

在国内的评测中，SuperCLUE 是大模型时代 CLUE 基准的发展和延续，聚焦于通用大模型的综合性测评。在 SuperCLUE 测评中，国外模型的平均成绩为 69.42 分，国内模型平均成绩为 65.95 分，差距在 4 分左右。国内外的平均水平差距在缩小，11 月差距在 10 分左右。

SuperCLUE 是中文语言理解测评基准 CLUE 的发展，发起于 2019 年，陆续推出了多种广为引用的测评基准。它根据多年的测评经验，构建了多层次、多维度的综合性测评基准。SuperCLUE 始终秉持中立、客观的第三方测评理念，采用自动化方式的客观评估，降低评测过程中的人为评估的不确定性。

国外对标的评测没有明确提及。

Content generated by AI large model, please carefully verify (powered by aily)

References

2023年度中文大模型基准测评报告.pdf

国内外差距依然明显。GP T 4 T u r b o总分90.63分遥遥领先，高于其他国内大模型及国外大模型。其中国内最好模型文心一言4.0(API)总分79.02分，距离GPT4-Turbo有11.61分，距离GPT4(网页)有4.9分的差距。必须看到的是，过去1年国内大模型已经有了长足的进步。综合能力超过G P T 3.5和Gemini-Pro的模型有11个，比如百度的文心一言4.0、阿里云的通义千问2.0和Qw e n 72B-Chat、OPPO的AndesGPT、清华&智谱AI的智谱清言、字节跳动的云雀大模型等都有比较好的表现。国外模型平均成绩VS国内模型平均成绩•在SuperCLUE测评中，国外模型的平均成绩为69.42分，国内模型平均成绩为65.95分，差距在4分左右。另外国内开源模型在中文上表现要好于国外开源模型，如百川智能的Baichuan2-13B-Chat、阿里云的Qwen-72B、Yi-34B-Cha t均优于Llama2-13B-Chat。•可以看出，国内外的平均水平差距在缩小，11月差距在10分左右。

2023年度中文大模型基准测评报告.pdf

趋势展示，选取了7月-12月SuperCLUE-OPEN测评分数。国内代表性模型，选取了文心一言、通义千问、ChatGLM。原因是综合考虑了过去半年SuperCLUE测评结果、长期稳定迭代及对国内大模型生态的贡献；GPT4成绩，由GPT4API(7-9月)与GPT4-Turbo(10-12月)组成，用以表现国外最好模型发展。[heading4]第2部分测评体系、方法说明[content]1.SuperCLUE介绍2.测评层级3.测评体系4.测评方法及示例[heading4]SuperCLUE介绍[content]中文语言理解测评基准C L U E（T h e C h i n e s e L a n g u a g e Understanding Evaluation）是致力于科学、客观、中立的语言模型评测基准，发起于2019年。陆续推出CLUE、FewCLUE、KgCLUE、DataCLUE等广为引用的测评基准。SuperCLUE是大模型时代CLUE基准的发展和延续。聚焦于通用大模型的综合性测评。传统语言模型测评往往局限于学术范围的单轮选择题，SuperCLUE根据多年的测评经验，基于通用大模型在学术、产业与用户侧的广泛应用，构建了多层次、多维度的综合性测评基准。传统测评与SuperCLUE的区别01 02[heading3]第三方测评，不与模型厂商竞争[content]SuperCLUE始终秉持中立、客观的第三方测评理念，不会预设立场或偏向特定的模型方。同时，SuperCLUE采用自动化方式的客观评估，大大降低评测过程中的人为评估的不确定性。

2023年度中文大模型基准测评报告.pdf

注：计算分值为模型的OPEN分与OPT分值的差值，用以观察模型在主观题和客观题上的不同表现。通过对比模型在主观简答题OPEN和客观选择题OPT上的不同表现，可以发现，国内大模型多数擅长做选择题。普遍选择题的分数会高于简答题的分数。其中，文心一言4.0和智谱清言表现相对稳定，分别为（13.38）和（-14.01）。GPT-4 Turbo的表现最为稳定，差值仅有0.86。SuperCLUE认为，客观题相对主观题更容易通过题库形式进行训练和提升；同时也由于客观题中包含中文特性问题，中文模型自然有一定的优势，所以应该综合来看模型的评测效果。值得关注的是，在本次测评中，国外的代表性大模型如GPT4的不同版本、Claude2、Llama2都很好的稳定性表现，值得国内大模型进一步分析研究。[heading3]开源竞争格局