Chat with Wiki - 国内外大模型测评

Answer

以下是关于国内外大模型测评的相关内容：

在 2023 年度的中文大模型基准测评中：

国内外大模型总体表现方面，90.63 分遥遥领先，高于其他国内大模型及国外大模型。国内最好模型文心一言 4.0（API）总分 79.02 分，距离 GPT4-Turbo 有 11.61 分，距离 GPT4（网页）有 4.9 分的差距。过去 1 年国内大模型有长足进步，综合能力超过 GPT 3.5 和 Gemini-Pro 的模型有 11 个，如百度的文心一言 4.0、阿里云的通义千问 2.0 和 Qwen 72B-Chat、OPPO 的 AndesGPT、清华&智谱 AI 的智谱清言、字节跳动的云雀大模型等。在 SuperCLUE 测评中，国外模型平均成绩为 69.42 分，国内模型平均成绩为 65.95 分，差距在 4 分左右，且国内外平均水平差距在缩小，11 月差距在 10 分左右。阿里云的 Qwen-72B、Yi -34B-Chat 均优于 Llama2-13B-Chat。
国内大模型竞争格局方面，从大厂和创业公司的平均成绩来看，大厂与创业公司差值约 6.33 分，较 11 月份差距在增大，说明大厂在大模型竞争中长期资源投入方面有一定优势。过去八个月国内模型在 SuperCLUE 基准上的前三名情况如下：12 月和 11 月的第一名是文心一言 4.0，10 月第一名是 BlueLM，9 月第一名是 SenseChat3.0，8 月第一名是 Baichuan2-13B-Chat，7 月第一名是文心一言（网页 v2.2.0），6 月第一名是 360 智脑，5 月第一名是 360 智脑。第二名在不同月份分别是通义千问 2.0、Moonshot 等。
主观和客观对比方面，通过对比模型在主观简答题 OPEN 和客观选择题 OPT 上的不同表现，国内大模型多数擅长做选择题，普遍选择题分数高于简答题分数。文心一言 4.0 和智谱清言表现相对稳定，分别为（13.38）和（-14.01），GPT-4 Turbo 的表现最为稳定，差值仅有 0.86。SuperCLUE 认为，客观题相对主观题更容易通过题库形式进行训练和提升，同时由于客观题中包含中文特性问题，中文模型有一定优势，应综合来看模型的评测效果。国外的代表性大模型如 GPT4 的不同版本、Claude2、Llama2 都有很好的稳定性表现，值得国内大模型进一步分析研究。

Content generated by AI large model, please carefully verify (powered by aily)

References

2023年度中文大模型基准测评报告.pdf

外大模型。其中国内最好模型文心一言[heading4]4.0(API)总分79.02分，距离GPT4-Turbo有[content]11.61分，距离GPT4(网页)有4.9分的差距。必须看到的是，过去1年国内大模型已经有了长足的进步。综合能力超过G P T 3.5和Gemini-Pro的模型有11个，比如百度的文心一言4.0、阿里云的通义千问2.0和Qw e n 72B-Chat、OPPO的AndesGPT、清华&智谱AI的智谱清言、字节跳动的云雀大模型等都有比较好的表现。•在SuperCLUE测评中，国外模型的平均成绩为69.42分，国内模型平均成绩为65.95分，差距在4分左右。另外国内开源模型在中文上表现要好于国外开源模型，如百川智能的Baichuan2-13B-Chat、•可以看出，国内外的平均水平差距在缩小，11月差距在10分左右。阿里云的Qwen-72B、Yi -34B-Cha t均优于Llama2-13B-Chat。

2023年度中文大模型基准测评报告.pdf

文心一言(网页v2.2.0)360智脑360智脑�第二名通义千问2.0Moonshot

2023年度中文大模型基准测评报告.pdf

测评分析通过对比模型在主观简答题OPEN和客观选择题OPT上的不同表现，可以发现，国内大模型多数擅长做选择题。普遍选择题的分数会高于简答题的分数。其中，文心一言4.0和智谱清言表现相对稳定，分别为（13.38）和（-14.01）。GPT-4 Turbo的表现最为稳定，差值仅有0.86。SuperCLUE认为，客观题相对主观题更容易通过题库形式进行训练和提升；同时也由于客观题中包含中文特性问题，中文模型自然有一定的优势，所以应该综合来看模型的评测效果。值得关注的是，在本次测评中，国外的代表性大模型如GPT4的不同版本、Claude2、Llama2都很好的稳定性表现，值得国内大模型进一步分析研究。注：计算分值为模型的OPEN分与OPT分值的差值，用以观察模型在主观题和客观题上的不同表现。