Chat with Wiki - 国内大模型评测

Answer

以下是关于国内大模型评测的相关信息：

小七姐对文心一言 4.0、智谱清言、KimiChat 进行了小样本测评，测评目标是以同组提示词下 ChatGPT 4.0 生成的内容做对标参照，测评的大模型包括智谱清言（https://chatglm.cn/main/detail）、文心一言 4.0（https://yiyan.baidu.com/）、Kimi Chat（https://kimi.moonshot.cn/chat/）。
在 SuperCLUE 基准的语言与知识测评中，GPT-4 Turbo 依然领先，是唯一超过 90 分的大模型。国内大模型表现相对较好，有 14 个模型的得分高于 GPT3.5，有 9 个模型的得分高于 Gemini-Pro。其中 OPPO 的 AndesGPT、阿里云的通义千问 2.0、月之暗面的 Moonshot 分列国内 1 - 3 位，较为接近 GPT4。开源模型中，零一万物的 Yi-34B-Chat、阿里云的 Qwen-72B-Chat、百川智能的 Baichuan2-13B-Chat 取得不错成绩，均超过 50 分，分列国内模型的 1 - 3 名。总体来看，在中文语言与知识能力上，国内大模型已基本追赶上国外头部大模型，未来也可能率先形成超越。
《中文大模型基准测评 2023 年度报告》中提到国内外大模型总体表现和国内大模型竞争格局。从大厂和创业公司的平均成绩来看，大厂与创业公司差值约 6.33 分，较 11 月份差距在增大，说明大厂在大模型竞争中长期资源投入方面有一定优势。过去八个月国内模型在 SuperCLUE 基准上的前三名情况如下：12 月第一名是文心一言 4.0，第二名是通义千问 2.0；11 月第一名是文心一言 4.0；10 月第一名是 BlueLM；9 月第一名是 SenseChat3.0；8 月、7 月、6 月、5 月的第一名情况未提及。

Content generated by AI large model, please carefully verify (powered by aily)

References

测评三家国产大模型，以同组提示词下ChatGPT 4.0生成的内容做对标参照[智谱清言](https://chatglm.cn/main/detail)[文心一言4.0](https://yiyan.baidu.com/)[Kimi Chat](https://kimi.moonshot.cn/chat/)

2023年度中文大模型基准测评报告.pdf

[title]VIRTUAL[heading1]国内大模型关键进展第5部分[heading2]1.语言与知识2.专业与技能3.工具使用4.传统安全SuperCLUE基准-语言与知识测评表现测评分析语言与知识，考察模型的能力包括：1.生成与创作；2.语言理解与抽取；3.上下文对话；4.角色扮演；5.知识与百科。在语言与知识的测评中，GPT-4 Turbo依然领先，是唯一超过90分的大模型。国内大模型也表现相对较好，有14个模型的得分高于GPT3.5，有9个模型的得分高于Gemini-Pro。其中OPPO的AndesGPT、阿里云的通义千问2.0、月之暗面的Moonsho t分列国内1-3位，较为接近GPT4。在开源模型中，零一万物的Yi-34B-Chat、阿里云的Qwen-72B-Chat、百川智能的Baichuan2-13B-Chat取得了不错的成绩，均超过了50分，分列国内模型的1-3名。总体来看，在中文语言与知识能力上，国内大模型已基本追赶上国外头部大模型，在未来也最可能成为率先形成超越的维度之一。语言与知识-示例（语言理解）

2023年度中文大模型基准测评报告.pdf

文心一言(网页v2.2.0)360智脑360智脑�第二名通义千问2.0Moonshot