Chat with Wiki - 国内外大预言模型对比

Answer

以下是国内外大语言模型的对比情况：

工具使用能力：
- 在工具使用的测评中，GPT-4 Turbo 取得满分。
- 国内大模型中智谱清言表现不俗，取得 83.78 的高分，排名国内第一。文心一言 4.0(API)、通义千问 2.0、Yi-34B-Chat、AndesGPT 均有超过 70 分的表现。超过 GPT3.5 的国内模型有 12 个。
- 开源模型中，Baichuan2-13B-Chat、Xverse-13B-2-Caht 表现可圈可点，均超过 GPT3.5 以及众多闭源模型。总体来看，国内大模型在工具使用能力上表现优异，这与国内大模型厂商积极落地应用密不可分。
主观和客观对比：
- 通过对比模型在主观简答题 OPEN 和客观选择题 OPT 上的不同表现，国内大模型多数擅长做选择题，普遍选择题分数高于简答题分数。文心一言 4.0 和智谱清言表现相对稳定。
- GPT-4 Turbo 的表现最为稳定。
- 客观题相对主观题更容易通过题库形式进行训练和提升，同时由于客观题中包含中文特性问题，中文模型有一定优势，应综合来看模型的评测效果。
- 在本次测评中，国外的代表性大模型如 GPT4 的不同版本、Claude2、Llama2 都有很好的稳定性表现，值得国内大模型进一步分析研究。
总体表现：
- GPT 4 Turbo 总分 90.63 分遥遥领先，高于其他国内大模型及国外大模型。国内最好模型文心一言 4.0(API)总分 79.02 分，距离 GPT4-Turbo 有 11.61 分，距离 GPT4(网页)有 4.9 分的差距。
- 过去 1 年国内大模型有长足进步，综合能力超过 GPT 3.5 和 Gemini-Pro 的模型有 11 个。
- 在 SuperCLUE 测评中，国外模型的平均成绩为 69.42 分，国内模型平均成绩为 65.95 分，差距在 4 分左右。国内外的平均水平差距在缩小，11 月差距在 10 分左右。
- 国内开源模型在中文上表现好于国外开源模型，如百川智能的 Baichuan2-13B-Chat、阿里云的 Qwen-72B、Yi -34B-Cha t 均优于 Llama2-13B-Chat。

Content generated by AI large model, please carefully verify (powered by aily)

References

2023年度中文大模型基准测评报告.pdf

测评表现测评分析工具使用，考察模型的能力包括：检索API、调用API、规划API、通用工具使用。在工具使用的测评中，GPT-4 Turbo取得了满分。国内大模型中智谱清言表现不俗，取得了83.78的高分，排名国内模型第一。仅随其后的是文心一言4.0(API)、通义千问2.0、Yi-34B-Chat、AndesGPT均有超过70分的表现。其他国内模型同样有不错的表现，超过GPT3.5的模型有12个。在开源模型中，Baichuan2-13B-Chat、Xverse-13B-2-Caht的表现可圈可点，均超过GPT3.5以及众多闭源模型。总体来看，在工具使用能力上，国内大模型的表现优异，与国内大模型厂商积极落地应用密不可分。

2023年度中文大模型基准测评报告.pdf

测评表现测评分析通过对比模型在主观简答题OPEN和客观选择题OPT上的不同表现，可以发现，国内大模型多数擅长做选择题。普遍选择题的分数会高于简答题的分数。其中，文心一言4.0和智谱清言表现相对稳定，分别为（13.38）和（-14.01）。GPT-4 Turbo的表现最为稳定，差值仅有0.86。SuperCLUE认为，客观题相对主观题更容易通过题库形式进行训练和提升；同时也由于客观题中包含中文特性问题，中文模型自然有一定的优势，所以应该综合来看模型的评测效果。值得关注的是，在本次测评中，国外的代表性大模型如GPT4的不同版本、Claude2、Llama2都很好的稳定性表现，值得国内大模型进一步分析研究。注：计算分值为模型的OPEN分与OPT分值的差值，用以观察模型在主观题和客观题上的不同表现。[heading1]开源竞争格局[content]开源现状开源模型对比国外代表模型

2023年度中文大模型基准测评报告.pdf

国内外差距依然明显。GP T 4 T u r b o总分[heading1]国外模型平均成绩VS国内模型平均成绩[content]90.63分遥遥领先，高于其他国内大模型及国外大模型。其中国内最好模型文心一言4.0(API)总分79.02分，距离GPT4-Turbo有11.61分，距离GPT4(网页)有4.9分的差距。必须看到的是，过去1年国内大模型已经有了长足的进步。综合能力超过G P T 3.5和Gemini-Pro的模型有11个，比如百度的文心一言4.0、阿里云的通义千问2.0和Qw e n 72B-Chat、OPPO的AndesGPT、清华&智谱AI的智谱清言、字节跳动的云雀大模型等都有比较好的表现。•在SuperCLUE测评中，国外模型的平均成绩为69.42分，国内模型平均成绩为65.95分，差距在4分左右。另外国内开源模型在中文上表现要好于国外开源模型，如百川智能的Baichuan2-13B-Chat、•可以看出，国内外的平均水平差距在缩小，11月差距在10分左右。阿里云的Qwen-72B、Yi -34B-Cha t均优于Llama2-13B-Chat。