Chat with Wiki - 国内外最好的来源大模型有哪些对比介绍一下

Answer

以下是国内外一些较好的大模型及其对比介绍：

国外大模型：

GPT-4 Turbo 总分 90.63 分遥遥领先，在各项能力上表现出色。

国内大模型：

文心一言 4.0（API）总分 79.02 分，过去 1 年有长足进步。
通义千问 2.0（阿里云）：在代码、上下文对话基础能力上排名国内第一，各项能力较为均衡，位于国内大模型第一梯队，适合应用于金融、医疗、汽车等垂直专业场景及代码生成与纠错等场景。
AndesGPT（OPPO）：在语言理解与抽取、角色扮演能力上排名国内前一，在代码、生成与创作、上下文对话能力上排名国内前三，各项能力较为均衡，聚焦在移动设备端的应用。
百川智能的 Baichuan2-13B-Chat：是中文开源模型的主导力量，在中文上表现优于国外开源模型。

在 SuperCLUE 测评中，国外模型的平均成绩为 69.42 分，国内模型平均成绩为 65.95 分，差距在 4 分左右，但国内外的平均水平差距在缩小。另外，国内开源模型在中文上表现要好于国外开源模型。

Content generated by AI large model, please carefully verify (powered by aily)

References

2023年度中文大模型基准测评报告.pdf

国内外差距依然明显。GP T 4 T u r b o总分90.63分遥遥领先，高于其他国内大模型及国外大模型。其中国内最好模型文心一言4.0(API)总分79.02分，距离GPT4-Turbo有11.61分，距离GPT4(网页)有4.9分的差距。必须看到的是，过去1年国内大模型已经有了长足的进步。综合能力超过G P T 3.5和Gemini-Pro的模型有11个，比如百度的文心一言4.0、阿里云的通义千问2.0和Qw e n 72B-Chat、OPPO的AndesGPT、清华&智谱AI的智谱清言、字节跳动的云雀大模型等都有比较好的表现。国外模型平均成绩VS国内模型平均成绩•在SuperCLUE测评中，国外模型的平均成绩为69.42分，国内模型平均成绩为65.95分，差距在4分左右。另外国内开源模型在中文上表现要好于国外开源模型，如百川智能的Baichuan2-13B-Chat、阿里云的Qwen-72B、Yi-34B-Cha t均优于Llama2-13B-Chat。•可以看出，国内外的平均水平差距在缩小，11月差距在10分左右。

2023年度中文大模型基准测评报告.pdf

AndesGPT在语言理解与抽取、角色扮演能力上排名国内前一，在代码、生成与创作、上下文对话能力上排名国内前三。在专业技能和语言任务上均有不俗表现，综合来看，AndesGPT是一个各项能力较为均衡的大模型，在国内大模型厂商中比较有竞争力。适合应用：AndesGPT聚焦在移动设备端的应用。主要涵盖四个方向：知识、记忆、工具、创作。目前AndesGPT已支持使用“系统设置、一方应用、三方服务、代码解释器”等各类工具。并且AndesGPT已全面支持文生文、文生图等场景，可以为用户提供真实有用的技能。优秀模型：Baichuan2-13B-Chat（百川智能）[heading4]简介：[content]Baichuan2-13B-Chat是百川智能自主训练的开源大语言模型。百川智能于6月15日开源Baichuan1、9月6日开源Baichuan2，10月31日发布Baichuan2192K。是中文开源模型的主导力量。

2023年度中文大模型基准测评报告.pdf

通义千问，是阿里云推出的大语言模型，于2023年4月11日在阿里云峰会上正式发布1.0。9月13日，阿里云宣布通义千问大模型已首批通过备案。10月31日，阿里云正式发布千亿级参数大模型通义千问2.0，8大行业模型同步上线。[heading4]模型特点：[content]通义千问2.0在代码、上下文对话基础能力上排名国内第一，在计算、语言理解与抽取、生成与创作、角色扮演、工具使用的能力上排名国内前三。通义千问2.0各项能力上较为均衡，在知识百科、安全方面还有一定优化空间。综合来看，通义千问2.0位于国内大模型第一梯队。适合应用：通义千问2.0专业维度上的能力较强，可应用于相对专业复杂场景。基于在SuperCLUE测评上的表现，重点推荐应用于金融、医疗、汽车等垂直专业场景。另外，在代码生成与纠错、实时搜索信息、通用工具调用、办公等场景中也会有不错的表现，优秀模型：AndesGPT（OPPO）[heading4]简介：[content]AndesGPT是OPPO自主训练的大语言模型。于11月16日2023 OPPO开发者大会上正式推出。AndesGPT对话增强、个性专属和端云协同三大技术特征。目前已接入OPPO智能助理新小布，可用于用机助手、内容创作、超级问答、专属AI、日程管理等全新能力，正在公测中。

国内外最好的来源大模型有哪些 对比介绍一下

Answer

References

国内外最好的来源大模型有哪些对比介绍一下