以下是关于国产大模型的介绍及对比:
过去一年,国内大模型取得了显著进步。综合能力超过 GPT 3.5 和 Gemini-Pro 的国产模型有 11 个,如百度的文心一言 4.0、阿里云的通义千问 2.0 和 Qwen 72B-Chat、OPPO 的 AndesGPT、清华&智谱 AI 的智谱清言、字节跳动的云雀大模型等。在 SuperCLUE 测评中,国外模型平均成绩为 69.42 分,国内模型平均成绩为 65.95 分,差距约 4 分,且国内外平均水平差距在缩小。
国内开源模型在中文上表现优于国外开源模型,如百川智能的 Baichuan2-13B-Chat、阿里云的 Qwen-72B、Yi-34B-Chat 均优于 Llama2-13B-Chat。国内大模型竞争格局方面,从国内 TOP19 大模型的数量来看,创业公司和大厂的占比几乎持平。
此外,还有针对国产大模型的测评机制,包括以同组提示词下 ChatGPT 4.0 生成的内容做对标参照,对复杂提示词理解和执行、推理能力、文本生成能力、提示词设计能力、长文本归纳总结能力等方面进行多轮测评。
国外的代表性大模型如 GPT4 的不同版本、Claude2、Llama2 有较好的稳定性表现。国内开源模型总体表现较好,成绩最好的开源模型在中文某些场景或任务上接近 GPT 4,大版本的模型通常优于中小版本,众多创业公司是开源模型的主力。
必须看到的是,过去1年国内大模型已经有了长足的进步。综合能力超过G P T 3.5和Gemini-Pro的模型有11个,比如百度的文心一言4.0、阿里云的通义千问2.0和Qw e n 72B-Chat、OPPO的AndesGPT、清华&智谱AI的智谱清言、字节跳动的云雀大模型等都有比较好的表现。•在SuperCLUE测评中,国外模型的平均成绩为69.42分,国内模型平均成绩为65.95分,差距在4分左右。另外国内开源模型在中文上表现要好于国外开源模型,如百川智能的Baichuan2-13B-Chat、阿里云的Qwen-72B、Yi-34B-Cha t均优于Llama2-13B-Chat。•可以看出,国内外的平均水平差距在缩小,11月差距在10分左右。国内大模型竞争格局国内大模型综合表现-SuperCLUE创业公司(9)vs大厂(10)通过SuperCLUE测评结果发现,国内大模型的第一梯队有了更多新的模型加入。头部模型如文心一言4.0、通义千问2.0引领国内大模型的研发进度,部分高质量大模型紧追不舍,分别在闭源应用和开源生态中形成自己独特的优势。创业公司大厂•从国内TOP19大模型的数量来看,创业公司和大厂的占比几乎持平。大厂和创业公司平均成绩对比大厂平均69.42
测评三家国产大模型,以同组提示词下ChatGPT 4.0生成的内容做对标参照[智谱清言](https://chatglm.cn/main/detail)[文心一言4.0](https://yiyan.baidu.com/)[Kimi Chat](https://kimi.moonshot.cn/chat/)[heading3]二、能力考量[content]复杂提示词理解和执行(结构化提示词)推理能力(CoT表现)文本生成能力(写作要求执行)提示词设计能力(让模型设计提示词)长文本归纳总结能力(论文阅读)[heading3]三、测评轮次[heading4]第一轮:复杂提示词理解和执行[content]1.任务一:Markdown+英文title提示词测试,1个任务4个模型(4次)2.任务二:Markdown+中文title提示词测试,1个任务4个模型(4次)3.任务三:中文title+自然段落提示词测试,1个任务4个模型(4次)[heading4]第二轮:推理能力(CoT表现)[content]逐步推理任务,遍历3个不同类型任务+4个大模型(12次)[heading4]第三轮:文本生成能力(写作要求执行)[content]根据提示词生成文本任务,遍历3个不同类型任务+4个大模型(12次)[heading4]第四轮:提示词设计能力(让模型设计提示词)[content]按提示词要求生成提示词,逐步推理任务,遍历3个不同类型任务+4个大模型(12次)[heading4]第五轮:长文本归纳总结能力(论文阅读)[content]按提供的长文本(上传或在线)进行归纳总结,逐步推理任务,遍历3个不同类型任务+4个大模型(12次)
值得关注的是,在本次测评中,国外的代表性大模型如GPT4的不同版本、Claude2、Llama2都很好的稳定性表现,值得国内大模型进一步分析研究。注:计算分值为模型的OPEN分与OPT分值的差值,用以观察模型在主观题和客观题上的不同表现。开源竞争格局开源现状开源模型对比国外代表模型1.国内开源模型现状总体上国内开源模型表现较好,成绩最好的开源模型在中文的某些场景或任务上接近GPT 4,其中Qwe n 72B-Cha t和Yi-34B-Cha t总分上已经超过GPT3.5,Baichuan2-13B-Chat也有接近GPT3.5的表现。2.不同大小(参数量)效果差异总体上大版本(如34B)的模型优于中小版本(13B、6B)的开源模型,更大的版本(如72B)的模型表现要更好。开源模型的发展也从最开始的6B,到13B,到现在更大的34B、72B的开源模型。3.谁在主导开源虽然也有少量大厂(阿里云)参与,但众多的创业公司是开源模型的主力,如智谱AI、百川智能、零一万物和元象科技。第4部分SuperCLUE2.0升级:行业及专项测评基准SuperCLUE2.0升级:行业及专项大模型测评基准