以下是国内外一些较好的大模型及其对比介绍:
国外大模型:
国内大模型:
在 SuperCLUE 测评中,国外模型的平均成绩为 69.42 分,国内模型平均成绩为 65.95 分,差距在 4 分左右,但国内外的平均水平差距在缩小。另外,国内开源模型在中文上表现要好于国外开源模型。
国内外差距依然明显。GP T 4 T u r b o总分90.63分遥遥领先,高于其他国内大模型及国外大模型。其中国内最好模型文心一言4.0(API)总分79.02分,距离GPT4-Turbo有11.61分,距离GPT4(网页)有4.9分的差距。必须看到的是,过去1年国内大模型已经有了长足的进步。综合能力超过G P T 3.5和Gemini-Pro的模型有11个,比如百度的文心一言4.0、阿里云的通义千问2.0和Qw e n 72B-Chat、OPPO的AndesGPT、清华&智谱AI的智谱清言、字节跳动的云雀大模型等都有比较好的表现。国外模型平均成绩VS国内模型平均成绩•在SuperCLUE测评中,国外模型的平均成绩为69.42分,国内模型平均成绩为65.95分,差距在4分左右。另外国内开源模型在中文上表现要好于国外开源模型,如百川智能的Baichuan2-13B-Chat、阿里云的Qwen-72B、Yi-34B-Cha t均优于Llama2-13B-Chat。•可以看出,国内外的平均水平差距在缩小,11月差距在10分左右。
AndesGPT在语言理解与抽取、角色扮演能力上排名国内前一,在代码、生成与创作、上下文对话能力上排名国内前三。在专业技能和语言任务上均有不俗表现,综合来看,AndesGPT是一个各项能力较为均衡的大模型,在国内大模型厂商中比较有竞争力。适合应用:AndesGPT聚焦在移动设备端的应用。主要涵盖四个方向:知识、记忆、工具、创作。目前AndesGPT已支持使用“系统设置、一方应用、三方服务、代码解释器”等各类工具。并且AndesGPT已全面支持文生文、文生图等场景,可以为用户提供真实有用的技能。优秀模型:Baichuan2-13B-Chat(百川智能)[heading4]简介:[content]Baichuan2-13B-Chat是百川智能自主训练的开源大语言模型。百川智能于6月15日开源Baichuan1、9月6日开源Baichuan2,10月31日发布Baichuan2192K。是中文开源模型的主导力量。
通义千问,是阿里云推出的大语言模型,于2023年4月11日在阿里云峰会上正式发布1.0。9月13日,阿里云宣布通义千问大模型已首批通过备案。10月31日,阿里云正式发布千亿级参数大模型通义千问2.0,8大行业模型同步上线。[heading4]模型特点:[content]通义千问2.0在代码、上下文对话基础能力上排名国内第一,在计算、语言理解与抽取、生成与创作、角色扮演、工具使用的能力上排名国内前三。通义千问2.0各项能力上较为均衡,在知识百科、安全方面还有一定优化空间。综合来看,通义千问2.0位于国内大模型第一梯队。适合应用:通义千问2.0专业维度上的能力较强,可应用于相对专业复杂场景。基于在SuperCLUE测评上的表现,重点推荐应用于金融、医疗、汽车等垂直专业场景。另外,在代码生成与纠错、实时搜索信息、通用工具调用、办公等场景中也会有不错的表现,优秀模型:AndesGPT(OPPO)[heading4]简介:[content]AndesGPT是OPPO自主训练的大语言模型。于11月16日2023 OPPO开发者大会上正式推出。AndesGPT对话增强、个性专属和端云协同三大技术特征。目前已接入OPPO智能助理新小布,可用于用机助手、内容创作、超级问答、专属AI、日程管理等全新能力,正在公测中。