Chat with Wiki - claude gpt 国内大模型的对比

Answer

以下是关于 Claude、GPT 与国内大模型的对比情况：

在 2023 年度中文大模型基准测评的传统安全能力专项基准中：

Claude2 遥遥领先，取得最高分 83.00 分，在传统安全方面表现出色，这可能与 Anthropic 对 AI 安全的重视及精心设计的安全防护措施有关。
文心一言 4.0（API）排在第二名，得分为 68 分。
智谱清言和 Yi-34B-Chat 均超过 65 分。
GPT 系列在安全能力测评上呈现不稳定情况，超过 GPT3.5 的国内模型有 14 个，GPT4(API)表现不尽如人意，可能与国内外安全范围及 OpenAI 安全策略有关。

在主观和客观对比方面：

国内大模型多数擅长做选择题，普遍选择题分数高于简答题分数，文心一言 4.0 和智谱清言表现相对稳定。
GPT-4 Turbo 的表现最为稳定，差值仅有 0.86。

此外，国外的代表性大模型如 GPT4 的不同版本、Claude2、Llama2 都有很好的稳定性表现，值得国内大模型进一步分析研究。

AndesGPT 是 OPPO 自主训练的大语言模型，具有对话增强、个性专属和端云协同三大技术特征，在语言理解与抽取、角色扮演能力上排名国内前一，在代码、生成与创作、上下文对话能力上排名国内前三，各项能力较为均衡，聚焦在移动设备端的应用，涵盖知识、记忆、工具、创作等方向。

Content generated by AI large model, please carefully verify (powered by aily)

References

2023年度中文大模型基准测评报告.pdf

测评表现测评分析传统安全能力主要考察模型在财产隐私、违法犯罪、偏见歧视、社会和谐等方面的安全能力。在传统安全的测评中，Claude2遥遥领先取得了最高分83.00，高出第二名15分。Claude2的良好表现可能与Anthropic对AI安全的重视密不可分，Anthropic的首要目标是通过创建一个“有用、无害、诚实”的大语言模型，并配备精心设计的安全防护措施，来避免安全问题。排在第二名的是文心一言4.0（API）取得68分。紧随其后是智谱清言和Yi-34B-Chat，均超过了65分。在安全能力上的测评上，GPT系列依然呈现出不稳定的情况，超过GPT3.5的国内模型有14个。GPT4(API)不尽如人意，可能与国内外安全范围及OpenAI安全策略有关。总体来看，在传统安全测评中国内大模型的表现不俗，是当下国内大模型比较重视的一个方向，同样我们看到Claude2即使在中文场景下依然展现出很高的安全水准，值得国内大模型进一步分析。

2023年度中文大模型基准测评报告.pdf

信息安全相关的在线课程和讲座[blo优秀模型：AndesGPT（OPPO）简介：AndesGPT是OPPO自主训练的大语言模型。于11月16日2023 OPPO开发者大会上正式推出。AndesGPT对话增强、个性专属和端云协同三大技术特征。目前已接入OPPO智能助理新小布，可用于用机助手、内容创作、超级问答、专属AI、日程管理等全新能力，正在公测中。模型特点：AndesGPT在语言理解与抽取、角色扮演能力上排名国内前一，在代码、生成与创作、上下文对话能力上排名国内前三。在专业技能和语言任务上均有不俗表现，综合来看，AndesGPT是一个各项能力较为均衡的大模型，在国内大模型厂商中比较有竞争力。适合应用：AndesGPT聚焦在移动设备端的应用。主要涵盖四个方向：知识、记忆、工具、创作。目前AndesGPT已支持使用“系统设置、一方应用、三方服务、代码解释器”等各类工具。并且AndesGPT已全面支持文生文、文生图等场景，可以为用户提供真实有用的技能。

2023年度中文大模型基准测评报告.pdf

测评表现测评分析通过对比模型在主观简答题OPEN和客观选择题OPT上的不同表现，可以发现，国内大模型多数擅长做选择题。普遍选择题的分数会高于简答题的分数。其中，文心一言4.0和智谱清言表现相对稳定，分别为（13.38）和（-14.01）。GPT-4 Turbo的表现最为稳定，差值仅有0.86。SuperCLUE认为，客观题相对主观题更容易通过题库形式进行训练和提升；同时也由于客观题中包含中文特性问题，中文模型自然有一定的优势，所以应该综合来看模型的评测效果。值得关注的是，在本次测评中，国外的代表性大模型如GPT4的不同版本、Claude2、Llama2都很好的稳定性表现，值得国内大模型进一步分析研究。注：计算分值为模型的OPEN分与OPT分值的差值，用以观察模型在主观题和客观题上的不同表现。[heading1]开源竞争格局[content]开源现状开源模型对比国外代表模型