Chat with Wiki - 当前所有大模型的能力排行

Answer

目前大模型的能力排行情况较为复杂，以下为您提供部分相关信息：

8 月正式上线的国内大模型包括北京的百度（文心一言）https://wenxin.baidu.com 、抖音（云雀大模型）https://www.doubao.com 、智谱 AI（GLM 大模型）https://chatglm.cn 、中科院（紫东太初大模型）https://xihe.mindspore.cn 、百川智能（百川大模型）https://www.baichuan-ai.com/ ，上海的商汤（日日新大模型）https://www.sensetime.com/ 、MiniMax（ABAB 大模型）https://api.minimax.chat 、上海人工智能实验室（书生通用大模型）https://intern-ai.org.cn 。在聊天状态下，能生成 Markdown 格式的有智谱清言、商量 Sensechat、MiniMax ；目前不能进行自然语言交流的有昇思、书生；受限制使用的有 MiniMax 。特色功能方面，昇思能生图，MiniMax 能语音合成。阿里通义千问、360 智脑、讯飞星火等不在首批获批名单中，广东地区获批公司分别为华为、腾讯，科大讯飞系其他地区获批产品。
2023 年度中文大模型基准测评报告显示，在语言与知识的测评中，GPT-4 Turbo 依然领先，是唯一超过 90 分的大模型。国内大模型也表现相对较好，有 14 个模型的得分高于 GPT3.5，有 9 个模型的得分高于 Gemini-Pro。其中 OPPO 的 AndesGPT、阿里云的通义千问 2.0、月之暗面的 Moonshot 分列国内 1-3 位，较为接近 GPT4。在开源模型中，零一万物的 Yi-34B-Chat、阿里云的 Qwen-72B-Chat、百川智能的 Baichuan2-13B-Chat 取得了不错的成绩，均超过了 50 分，分列国内模型的 1-3 名。总体来看，在中文语言与知识能力上，国内大模型已基本追赶上国外头部大模型。
关于大模型的评测榜单还有：
- Open LLM Leaderboard：地址https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard ，由 HuggingFace 组织，目前已评估了较多主流的开源 LLM 模型，评估主要包括 AI2 Reasoning Challenge,HellaSwag,MMLU,TruthfulQA 四个数据集上的表现，主要以英文为主。
- chinese-llm-benchmark：地址https://github.com/jeinlee1991/chinese-llm-benchmark ，覆盖百度文心一言、chatgpt、阿里通义千问、讯飞星火、belle/chatglm6b 等开源大模型，多维度能力评测，不仅提供能力评分排行榜，也提供所有模型的原始输出结果。
- Safety-Prompts：地址https://github.com/thu-coai/Safety-Prompts ，由清华大学提出，是一个关于 LLM 安全评测 benchmark，包括安全评测平台等，用于评测和提升大模型的安全性，囊括了多种典型的安全场景和指令攻击的 prompt。

Content generated by AI large model, please carefully verify (powered by aily)

References

5⃣️五家北京企业机构：百度（文心一言）https://wenxin.baidu.com抖音（云雀大模型）https://www.doubao.com智谱AI（GLM大模型）https://chatglm.cn中科院（紫东太初大模型）https://xihe.mindspore.cn百川智能（百川大模型）https://www.baichuan-ai.com/3⃣️三家上海企业机构：商汤（日日新大模型）https://www.sensetime.com/MiniMax（ABAB大模型）https://api.minimax.chat上海人工智能实验室（书生通用大模型）https://intern-ai.org.cn今天这8个大模型，在聊天状态下——能生成Markdown格式的：智谱清言、商量Sensechat、MiniMax目前不能进行自然语言交流的：昇思（可以对文本进行是否由AI生成的检测，类似论文查重，准确度不错）、书生受限制使用：MiniMax（无法对生成的文本进行复制输出，且只有15元的预充值额度进行体验，完成企业认证后可以进行充值）特色功能：昇思——生图，MiniMax——语音合成阿里通义千问、360智脑、讯飞星火等均不在首批获批名单中，广东省2家和其他省市1家也将陆续开放据悉，广东地区获批公司分别为华为、腾讯，科大讯飞系其他地区获批产品

2023年度中文大模型基准测评报告.pdf

1.语言与知识2.专业与技能3.工具使用4.传统安全SuperCLUE基准-语言与知识测评表现测评分析语言与知识，考察模型的能力包括：1.生成与创作；2.语言理解与抽取；3.上下文对话；4.角色扮演；5.知识与百科。在语言与知识的测评中，GPT-4 Turbo依然领先，是唯一超过90分的大模型。国内大模型也表现相对较好，有14个模型的得分高于GPT3.5，有9个模型的得分高于Gemini-Pro。其中OPPO的AndesGPT、阿里云的通义千问2.0、月之暗面的Moonsho t分列国内1-3位，较为接近GPT4。在开源模型中，零一万物的Yi-34B-Chat、阿里云的Qwen-72B-Chat、百川智能的Baichuan2-13B-Chat取得了不错的成绩，均超过了50分，分列国内模型的1-3名。总体来看，在中文语言与知识能力上，国内大模型已基本追赶上国外头部大模型，在未来也最可能成为率先形成超越的维度之一。语言与知识-示例（语言理解）

LLM开源中文大语言模型及数据集集合

Open LLM Leaderboard：地址：[https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard](https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard)简介：由HuggingFace组织的一个LLM评测榜单，目前已评估了较多主流的开源LLM模型。评估主要包括AI2 Reasoning Challenge,HellaSwag,MMLU,TruthfulQA四个数据集上的表现，主要以英文为主。chinese-llm-benchmark：地址：[https://github.com/jeinlee1991/chinese-llm-benchmark](https://github.com/jeinlee1991/chinese-llm-benchmark)简介：中文大模型能力评测榜单：覆盖百度文心一言、chatgpt、阿里通义千问、讯飞星火、belle/chatglm6b等开源大模型，多维度能力评测。不仅提供能力评分排行榜，也提供所有模型的原始输出结果！Safety-Prompts：地址：[https://github.com/thu-coai/Safety-Prompts](https://github.com/thu-coai/Safety-Prompts)简介：由清华大学提出的一个关于LLM安全评测benchmark，包括安全评测平台等，用于评测和提升大模型的安全性，囊括了多种典型的安全场景和指令攻击的prompt。