在多轮开放式问题基准 SuperCLUE-OPEN 测评中,国内模型中文心一言 4.0 的胜率国内最高,接近 30%。胜率超过 25%的国内模型还有智谱清言、通义千问 2.0 和 AndesGPT。
在 200 亿参数量级的开源模型中,Baichuan2-13B-Chat 的胜率排在首位。
在工具使用的测评中,国内模型中智谱清言表现不俗,取得了 83.78 的高分,排名国内第一。紧随其后的是文心一言 4.0(API)、通义千问 2.0、Yi-34B-Chat、AndesGPT 均有超过 70 分的表现。
综合来看,国内大模型中各有优势,具体的评分会因不同的测评维度和标准而有所差异。
[title]VIRTUAL中文大模型基准测评2023年度报告[heading2]国内外大模型总体表现[heading3]国内大模型竞争格局[heading4]ChatGLM2-Pro结果分析多轮开放式问题基准SuperCLUE-OPEN,是使用超级模型作为评判官,用一个待评估模型与一个基准模型(GPT3.5)进行对比,从而得出胜平负的得分。从胜率来看,全球领跑者GPT4-Turbo胜率为41.77%,和率为52.46%,大幅领先于其他模型,而败率仅为5.77%,足以说明GPT4-Turbo对GPT3.5在各项能力上的全面压倒性优势。而国内模型中,百度的文心一言4.0胜率国内最高,接近30%。胜率超过25%的模型有智谱清言、通义千问2.0和AndesGPT。在200亿参数量级的开源模型中Baichuan2-13B-Chat的胜率排在首位,展现出不俗的对战能力。排在2至3位的是XVERSE-13B-2 -Cha t、Qwen-14B-Chat,同样表现可圈可点。
[title]VIRTUAL[heading1]国内大模型关键进展第5部分[heading2]1.语言与知识2.专业与技能3.工具使用4.传统安全[heading3]语言与知识-示例(上下文对话)[heading4]PCI-TransGPT2.Bob不是最年轻的,也不是最年长的。2.Bob的年龄既不是最小的,也不是最大[heading4]GPT4(网页)SuperCLUE基准-工具使用能力测评表现测评分析工具使用,考察模型的能力包括:检索API、调用API、规划API、通用工具使用。在工具使用的测评中,GPT-4 Turbo取得了满分。国内大模型中智谱清言表现不俗,取得了83.78的高分,排名国内模型第一。仅随其后的是文心一言4.0(API)、通义千问2.0、Yi-34B-Chat、AndesGPT均有超过70分的表现。其他国内模型同样有不错的表现,超过GPT3.5的模型有12个。在开源模型中,Baichuan2-13B-Chat、Xverse-13B-2-Caht的表现可圈可点,均超过GPT3.5以及众多闭源模型。
[title]VIRTUAL[heading1]国内大模型关键进展AndesGPT是OPPO自主训练的大语言模型。于11月日2023 OPPO开发者大会上正式推出。AndesGPT对话增强、个性专属和端云协同三大技术特征。目前已接入OPPO智能助理新小布,可用于用机助手、内容创作、超级问答、专属AI、日程管理等全新能力,正在公测中。模型特点:AndesGPT在语言理解与抽取、角色扮演能力上排名国内前一,在代码、生成与创作、上下文对话能力上排名国内前三。在专业技能和语言任务上均有不俗表现,综合来看,AndesGPT是一个各项能力较为均衡的大模型,在国内大模型厂商中比较有竞争力。适合应用:AndesGPT聚焦在移动设备端的应用。主要涵盖四个方向:知识、记忆、工具、创作。目前AndesGPT已支持使用“系统设置、一方应用、三方服务、代码解释器”等各类工具。并且AndesGPT已全面支持文生文、文生图等场景,可以为用户提供真实有用的技能。优秀模型:Baichuan2-13B-Chat(百川智能)简介: