Chat with Wiki - 国内评分最高的GPT是什么

Answer

在多轮开放式问题基准 SuperCLUE-OPEN 测评中，国内模型中文心一言 4.0 的胜率国内最高，接近 30%。胜率超过 25%的国内模型还有智谱清言、通义千问 2.0 和 AndesGPT。

在 200 亿参数量级的开源模型中，Baichuan2-13B-Chat 的胜率排在首位。

在工具使用的测评中，国内模型中智谱清言表现不俗，取得了 83.78 的高分，排名国内第一。紧随其后的是文心一言 4.0(API)、通义千问 2.0、Yi-34B-Chat、AndesGPT 均有超过 70 分的表现。

综合来看，国内大模型中各有优势，具体的评分会因不同的测评维度和标准而有所差异。

Content generated by AI large model, please carefully verify (powered by aily)

References

2023年度中文大模型基准测评报告.pdf

[title]VIRTUAL中文大模型基准测评2023年度报告[heading2]国内外大模型总体表现[heading3]国内大模型竞争格局[heading4]ChatGLM2-Pro结果分析多轮开放式问题基准SuperCLUE-OPEN，是使用超级模型作为评判官，用一个待评估模型与一个基准模型（GPT3.5）进行对比，从而得出胜平负的得分。从胜率来看，全球领跑者GPT4-Turbo胜率为41.77%，和率为52.46%，大幅领先于其他模型，而败率仅为5.77%，足以说明GPT4-Turbo对GPT3.5在各项能力上的全面压倒性优势。而国内模型中，百度的文心一言4.0胜率国内最高，接近30%。胜率超过25%的模型有智谱清言、通义千问2.0和AndesGPT。在200亿参数量级的开源模型中Baichuan2-13B-Chat的胜率排在首位，展现出不俗的对战能力。排在2至3位的是XVERSE-13B-2 -Cha t、Qwen-14B-Chat，同样表现可圈可点。

2023年度中文大模型基准测评报告.pdf

[title]VIRTUAL[heading1]国内大模型关键进展第5部分[heading2]1.语言与知识2.专业与技能3.工具使用4.传统安全[heading3]语言与知识-示例（上下文对话）[heading4]PCI-TransGPT2.Bob不是最年轻的，也不是最年长的。2.Bob的年龄既不是最小的，也不是最大[heading4]GPT4(网页)SuperCLUE基准-工具使用能力测评表现测评分析工具使用，考察模型的能力包括：检索API、调用API、规划API、通用工具使用。在工具使用的测评中，GPT-4 Turbo取得了满分。国内大模型中智谱清言表现不俗，取得了83.78的高分，排名国内模型第一。仅随其后的是文心一言4.0(API)、通义千问2.0、Yi-34B-Chat、AndesGPT均有超过70分的表现。其他国内模型同样有不错的表现，超过GPT3.5的模型有12个。在开源模型中，Baichuan2-13B-Chat、Xverse-13B-2-Caht的表现可圈可点，均超过GPT3.5以及众多闭源模型。

2023年度中文大模型基准测评报告.pdf

[title]VIRTUAL[heading1]国内大模型关键进展AndesGPT是OPPO自主训练的大语言模型。于11月日2023 OPPO开发者大会上正式推出。AndesGPT对话增强、个性专属和端云协同三大技术特征。目前已接入OPPO智能助理新小布，可用于用机助手、内容创作、超级问答、专属AI、日程管理等全新能力，正在公测中。模型特点：AndesGPT在语言理解与抽取、角色扮演能力上排名国内前一，在代码、生成与创作、上下文对话能力上排名国内前三。在专业技能和语言任务上均有不俗表现，综合来看，AndesGPT是一个各项能力较为均衡的大模型，在国内大模型厂商中比较有竞争力。适合应用：AndesGPT聚焦在移动设备端的应用。主要涵盖四个方向：知识、记忆、工具、创作。目前AndesGPT已支持使用“系统设置、一方应用、三方服务、代码解释器”等各类工具。并且AndesGPT已全面支持文生文、文生图等场景，可以为用户提供真实有用的技能。优秀模型：Baichuan2-13B-Chat（百川智能）简介：