与知识库对话 - 有关国产大模型介绍及对比

回答

以下是关于国产大模型的介绍及对比：

过去一年，国内大模型取得了显著进步。综合能力超过 GPT 3.5 和 Gemini-Pro 的国产模型有 11 个，如百度的文心一言 4.0、阿里云的通义千问 2.0 和 Qwen 72B-Chat、OPPO 的 AndesGPT、清华&智谱 AI 的智谱清言、字节跳动的云雀大模型等。在 SuperCLUE 测评中，国外模型平均成绩为 69.42 分，国内模型平均成绩为 65.95 分，差距约 4 分，且国内外平均水平差距在缩小。

国内开源模型在中文上表现优于国外开源模型，如百川智能的 Baichuan2-13B-Chat、阿里云的 Qwen-72B、Yi-34B-Chat 均优于 Llama2-13B-Chat。国内大模型竞争格局方面，从国内 TOP19 大模型的数量来看，创业公司和大厂的占比几乎持平。

此外，还有针对国产大模型的测评机制，包括以同组提示词下 ChatGPT 4.0 生成的内容做对标参照，对复杂提示词理解和执行、推理能力、文本生成能力、提示词设计能力、长文本归纳总结能力等方面进行多轮测评。

国外的代表性大模型如 GPT4 的不同版本、Claude2、Llama2 有较好的稳定性表现。国内开源模型总体表现较好，成绩最好的开源模型在中文某些场景或任务上接近 GPT 4，大版本的模型通常优于中小版本，众多创业公司是开源模型的主力。

内容由 AI 大模型生成，请仔细甄别（powered by aily）

参考资料

2023年度中文大模型基准测评报告.pdf

必须看到的是，过去1年国内大模型已经有了长足的进步。综合能力超过G P T 3.5和Gemini-Pro的模型有11个，比如百度的文心一言4.0、阿里云的通义千问2.0和Qw e n 72B-Chat、OPPO的AndesGPT、清华&智谱AI的智谱清言、字节跳动的云雀大模型等都有比较好的表现。•在SuperCLUE测评中，国外模型的平均成绩为69.42分，国内模型平均成绩为65.95分，差距在4分左右。另外国内开源模型在中文上表现要好于国外开源模型，如百川智能的Baichuan2-13B-Chat、阿里云的Qwen-72B、Yi-34B-Cha t均优于Llama2-13B-Chat。•可以看出，国内外的平均水平差距在缩小，11月差距在10分左右。国内大模型竞争格局国内大模型综合表现-SuperCLUE创业公司(9)vs大厂(10)通过SuperCLUE测评结果发现，国内大模型的第一梯队有了更多新的模型加入。头部模型如文心一言4.0、通义千问2.0引领国内大模型的研发进度，部分高质量大模型紧追不舍，分别在闭源应用和开源生态中形成自己独特的优势。创业公司大厂•从国内TOP19大模型的数量来看，创业公司和大厂的占比几乎持平。大厂和创业公司平均成绩对比大厂平均69.42

小七姐：文心一言4.0、智谱清言、KimiChat 小样本测评

测评三家国产大模型，以同组提示词下ChatGPT 4.0生成的内容做对标参照[智谱清言](https://chatglm.cn/main/detail)[文心一言4.0](https://yiyan.baidu.com/)[Kimi Chat](https://kimi.moonshot.cn/chat/)[heading3]二、能力考量[content]复杂提示词理解和执行（结构化提示词）推理能力（CoT表现）文本生成能力（写作要求执行）提示词设计能力（让模型设计提示词）长文本归纳总结能力（论文阅读）[heading3]三、测评轮次[heading4]第一轮：复杂提示词理解和执行[content]1.任务一：Markdown+英文title提示词测试，1个任务4个模型（4次）2.任务二：Markdown+中文title提示词测试，1个任务4个模型（4次）3.任务三：中文title+自然段落提示词测试，1个任务4个模型（4次）[heading4]第二轮：推理能力（CoT表现）[content]逐步推理任务，遍历3个不同类型任务+4个大模型（12次）[heading4]第三轮：文本生成能力（写作要求执行）[content]根据提示词生成文本任务，遍历3个不同类型任务+4个大模型（12次）[heading4]第四轮：提示词设计能力（让模型设计提示词）[content]按提示词要求生成提示词，逐步推理任务，遍历3个不同类型任务+4个大模型（12次）[heading4]第五轮：长文本归纳总结能力（论文阅读）[content]按提供的长文本（上传或在线）进行归纳总结，逐步推理任务，遍历3个不同类型任务+4个大模型（12次）

2023年度中文大模型基准测评报告.pdf

值得关注的是，在本次测评中，国外的代表性大模型如GPT4的不同版本、Claude2、Llama2都很好的稳定性表现，值得国内大模型进一步分析研究。注：计算分值为模型的OPEN分与OPT分值的差值，用以观察模型在主观题和客观题上的不同表现。开源竞争格局开源现状开源模型对比国外代表模型1.国内开源模型现状总体上国内开源模型表现较好，成绩最好的开源模型在中文的某些场景或任务上接近GPT 4，其中Qwe n 72B-Cha t和Yi-34B-Cha t总分上已经超过GPT3.5，Baichuan2-13B-Chat也有接近GPT3.5的表现。2.不同大小（参数量）效果差异总体上大版本（如34B）的模型优于中小版本(13B、6B)的开源模型，更大的版本（如72B）的模型表现要更好。开源模型的发展也从最开始的6B，到13B，到现在更大的34B、72B的开源模型。3.谁在主导开源虽然也有少量大厂（阿里云）参与，但众多的创业公司是开源模型的主力，如智谱AI、百川智能、零一万物和元象科技。第4部分SuperCLUE2.0升级：行业及专项测评基准SuperCLUE2.0升级：行业及专项大模型测评基准