国外比较主流的大模型有:
1.SuperC本次测评数据选取了SuperCLUE-12月测评结果,模型选取了国内外有代表性的26个大模型在12月份的版本。模型机构简介1.GPT4-TurboOpenAI 2023年11月7日发布的GPT4的升级版本14.通义千问2.02.GPT4(网页版)OpenAI GPT4官方网页版本,支持联网功能15.Claude23.GPT4(API)OpenAI GPT4官方API版本,不支持联网功能16.云雀大模型(豆包)4.文心一言4.0(API)百度官方付费使用的文心一言V4.0的API版本17.Gemini-pro官方文心一言网页4.0版本5.文心一言4.0(网页版)百度18.GPT3.5-Turbo6.智谱清言清华&智谱AI官方网页版产品【智谱清言】19.Qwen-14B-ChatOPPO小范围内测API版本7.AndesGPT OPPO20.Baichuan2-13B-Chat百川智能8.Moonshot(KimiChat)月之暗面搭载Moonshot的网页版本【KimiChat】21.XVERSE-13B-2-Chat元象科技9.Qwen-72B-Chat阿里巴巴开源的72B的Chat版本22.讯飞星火V3.0出门问问官方发布的API版本
1.SuperC10.序列猴子23.Minimax(应事)11.Yi-34B-Chat零一万物开源的34B的Chat版本24.ChatGLM3-6B12.PCI-TransGPT佳都科技小范围内测API版本360智脑的API升级版本Pro模型25.Chinese-Alpaca2-13B26.Llama_2_13B_Chat Meta机构简介阿里巴巴官方公开发布的API版本:qwen-max-longcontextAnthropic官方发布的API 2.0版本字节跳动官方网页版产品【豆包】Google官方发布的API版本Gemini-proGPT3.5官方API版本OpenAI阿里巴巴开源的14B的Chat版本开源的第二代13B的Chat版本开源的第二代13B的Chat版本科大讯飞官方发布的V3.0版本的API稀宇科技官方网页版产品【应事】清华&智谱AI开源的第三代6B版本yiming cui(个人开发者)个人开源的基于Llama2的汉化版中文模型官方开源的2代13B的Chat版本13.360GPT_Pro 360
注:计算分值为模型的OPEN分与OPT分值的差值,用以观察模型在主观题和客观题上的不同表现。通过对比模型在主观简答题OPEN和客观选择题OPT上的不同表现,可以发现,国内大模型多数擅长做选择题。普遍选择题的分数会高于简答题的分数。其中,文心一言4.0和智谱清言表现相对稳定,分别为(13.38)和(-14.01)。GPT-4 Turbo的表现最为稳定,差值仅有0.86。SuperCLUE认为,客观题相对主观题更容易通过题库形式进行训练和提升;同时也由于客观题中包含中文特性问题,中文模型自然有一定的优势,所以应该综合来看模型的评测效果。值得关注的是,在本次测评中,国外的代表性大模型如GPT4的不同版本、Claude2、Llama2都很好的稳定性表现,值得国内大模型进一步分析研究。[heading3]开源竞争格局