Chat with Wiki - SuperCLUE半年度测评报告

Answer

以下是关于 SuperCLUE 半年度测评报告的相关内容：

趋势说明：过去半年，国内领军大模型企业实现了代际追赶。7 月与 GPT3.5 有 20 分差距，之后每月稳定且大幅提升，11 月总分超越 GPT3.5。GPT3.5 和 GPT4 在中文表现上基本一致，11 月有下滑，国内头部模型持续稳健提升。12 月国内第一梯队模型与 GPT4 差距缩小，但仍需追赶。部分国内代表性模型 7 月至 12 月的得分情况为：文心一言 50.48、54.18、53.72、61.81、73.62、75；通义千问 41.73、33.78、43.36、61.01、71.78；ChatGLM 42.46、38.49、54.31、58.53、63.27、69.91。

测评方法：采用多维度、多视角的综合性测评方案，包括多轮开放问题 SuperCLUE-OPEN 和三大能力客观题 SuperCLUE-OPT。评测集共 4273 题，其中 1060 道多轮简答题（OPEN），3213 道客观选择题（OPT）。OPEN 基准使用超级模型作为评判官，对比待评估模型与基准模型，计算胜和率作为 OPEN 得分。OPT 主要测评选择题，包括基础能力、中文特性、专业与学术能力，构造统一 prompt 供模型使用，要求选取唯一选项。SuperCLUE 总分由 0.7OPEN 分+0.3OPT 分计算得出。

第三方测评特点： SuperCLUE 始终秉持中立、客观的第三方测评理念，采用自动化方式的客观评估，降低人为评估的不确定性。测评方式与真实用户体验目标一致，纳入开放主观问题测评，通过多维度多视角多层次的评测体系和对话形式，模拟应用场景，考察模型生成能力，构建多轮对话场景，全方位评测大模型。同时，不限于学术领域的测评，旨在服务产业界，从多个维度的选择和设计到行业大模型测评基准的推出，都是为产业和应用服务，反映通用大模型与产业应用的差距，引导大模型提升技术落地效果。

Content generated by AI large model, please carefully verify (powered by aily)

References

2023年度中文大模型基准测评报告.pdf

过去半年，国内领军大模型企业实现了大模型代际追赶的奇迹，从7月份与GPT3.5的20分差距，每个月都有稳定且巨大的提升，到11月份测评时已经完成总分上对GPT3.5的超越。我们可以看到GPT3.5和GPT4在中文上的表现情况基本一致，在11月份测评结果中显示，在中文能力都有一定的下滑，而国内头部模型则展现了继续稳健提升的能力。在12月份的测评结果中可以看到，国内第一梯队模型与GPT4的差距在缩小。但仍有较大的距离需要追赶。模型7月8月9月文心一言50.48 54.18 53.72通义千问41.73 33.78 ChatGLM 42.46 38.49 54.31部分国内代表性模型SuperCLUE基准得分(7月-12月)10月61.8143.3658.5311月73.6261.0163.2712月75 71.7869.91说明：趋势展示，选取了7月-12月SuperCLUE-OPEN测评分数。国内代表性模型，选取了文心一言、通义千问、ChatGLM。原因是综合考虑了过去半年SuperCLUE测评结果、长期稳定迭代及对国内大模型生态的贡献；GPT4成绩，由GPT4API(7-9月)与GPT4-Turbo(10-12月)组成，用以表现国外最好模型发展。

2023年度中文大模型基准测评报告.pdf

为更真实反应大模型能力，本次测评采用多维度、多视角的综合性测评方案，由多轮开放问题SuperCLUE-OPEN和三大能力客观题SuperCLUE-OPT两持续扩充C L U E测评组OPEN在一个确定的评估标准指导下，OPEN基准使用超级模型作为评判官，使用一个待评估模型与一个基准模型进行对比，让超级模型选出A模型好，B模型好，或平局。进而计算胜和率作为OPEN得分。部分测评结果组成。评测集共4273题，其中1060道多轮简答题（OPEN），3213道客观选择题（OPT），以下为评测集与测评方法简述。评测反馈10万+题库被测模型A（如文心一言）VS多轮基线模型B（如GPT3.5）SuperCLUE总分不重复抽样裁判模型（如GPT4-Turbo）胜(3分)、和(1分)、负(0分)=5000原始评测集OPEN分=胜和率0.7*OPEN分+0.3*OPT分人工校验4273道评测题OPTOPT主要测评选择题，包括基础能力、中文特性、专业与学术能力。构造了统一的prompt供模型使用，要求模型选取ABCD中唯一的选项。注：多轮简答题OPEN更能反应模型真实能力，故权重设置提高。• 1060道多轮简答题（OPEN）被测模型A选择题库单选ABCD• 3213道客观选择题（OPT）OPT分=准确率

2023年度中文大模型基准测评报告.pdf

SuperCLUE始终秉持中立、客观的第三方测评理念，不会预设立场或偏向特定的模型方。同时，SuperCLUE采用自动化方式的客观评估，大大降低评测过程中的人为评估的不确定性。[heading1]测评方式与真实用户体验目标一致[content]不同于传统测评通过选择题形式的测评，SuperCLUE目标是与真实用户体验目标保持一致，所以纳入了开放主观问题的测评。通过多维度多视角多层次的评测体系以及对话的形式，真实模拟大模型的应用场景，真实有效的考察模型生成能力。同时，SuperCLUE通过构建多轮对话场景，更深层次考察大模型在真实多轮对话场景的应用效果。对大模型的上下文、记忆、对话能力全方位评测。不限于学术领域的测评，更为了服务产业界不同于传统学术领域的评测，SuperCLUE从通用基准维度的选择、安全和智能体专项测评的设计，到行业大模型测评基准的推出，所有评测的目的都是为产业和应用服务。真实反应通用大模型与产业应用之间的差距，引导大模型提升技术落地效果，在通用能力的基础上更好的进行垂直领域的应用。测评层级