Chat with Wiki - 有没有大模型测评网站

Answer

以下是一些大模型测评网站：

玉宝搞过的 LLM 在线评估网站：https://www.llmrank.cn/ ，可看到国内各个闭源大模型的 HUMANEVAL 测评得分，并能与 QWEN2 对比。
Compass Arena：由上海人工智能实验室和魔搭社区联合推出，集齐了国内主流的 20 多款大模型，包括阿里通义千问、百度文心一言、腾讯混元、讯飞星火、字节跳动豆包、智谱 AI、百川智能、零一万物、月之暗面等，用户可在平台选择大模型的两两“对战”，实名或匿名对战皆可。测评地址：https://opencompass.org.cn/arena 。
中文大模型评测收集与调研相关网站：
- InfoQ + 极客帮：https://www.guotaixia.com/post/5124.html
- GAOKAO-Bench：https://github.com/OpenLMLab/GAOKAO-Bench ，是以中国高考题目为数据集，测评大模型语言理解能力、逻辑推理能力的测评框架。
- 清华安全大模型测评：http://115.182.62.166:18000 ，清华收集的一个评测集，涵盖了仇恨言论、偏见歧视言论、犯罪违法、隐私、伦理道德等八大类别，包括细粒度划分的 40 余个二级安全类别。
- JioNLP 个人测评：评测数据集：https://github.com/dongrixinyu/JioNLP/wiki/LLM 评测数据集，考察 LLM 模型对人类用户的帮助效果、辅助能力，可否达到一个【智能助手】的水平。
- EduTEP：华东师范大学计算机科学与技术学院 EduNLP 团队组建智能教育算法测评小组，开发智能教育可信评测平台（EduTEP）。EduTEP 对比多种大模型在教育领域中的综合性能，针对 K12 教育发布首个 CALM-EDU 评测框架与 CALM-EDU001 评测报告。
- 娱乐资本论：从实用角度出发，分析大模型在各种文本应用场景，如小红书带货文案、抖音直播文案、知乎问答、小说创作、公关信写作、歌词生成、淘宝商品详情页文案、广告宣传片文案、剧本创意策划等方面的综合表现。
全面的模型测评网站：https://lmsys.org/blog/2023-05-03-arena/

Content generated by AI large model, please carefully verify (powered by aily)

References

玉宝搞过一个LLM的在线评估，里面可以看到国内各个闭源大模型的HUMANEVAL测评得分，可以和QWEN2对比https://www.llmrank.cn/2023年8月起，通义千问密集推出Qwen、Qwen1.5、Qwen2三代开源模型，实现了全尺寸、全模态开源。不到一年时间，通义开源大模型性能不断突破，Qwen系列的72B、110B模型多次登顶HuggingFace的Open LLM Leaderboard开源模型榜单。（图说：HuggingFace的开源大模型排行榜Open LLM Leaderboard是目前大模型领域最具权威性的榜单，收录了全球上百个开源大模型的性能测试结果，Qwen-72B和Qwen1.5-110B都曾登顶这一榜单）二、在哪里可以体验Qwen2系列模型？Qwen2系列已上线魔搭社区ModelScope和阿里云百炼平台，开发者可在魔搭社区体验、下载模型，或通过阿里云百炼平台调用模型API。同时，Qwen2-72b-instruct模型已经上线中国大语言模型评测竞技场Compass Arena，所有人都可以登录体验Qwen2的性能，或者选择Qwen2模型与其他大模型进行对比测评。测评地址（[https://opencompass.org.cn/arena](https://opencompass.org.cn/arena)）。Compass Arena是由上海人工智能实验室和魔搭社区联合推出的大模型测评平台，集齐了国内主流的20多款大模型，包括阿里通义千问、百度文心一言、腾讯混元、讯飞星火、字节跳动豆包、智谱AI、百川智能、零一万物、月之暗面等等，用户可在平台选择大模型的两两“对战”，实名或匿名对战皆可。

附：中文大模型评测收集与调研

https://www.guotaixia.com/post/5124.html[heading2]GAOKAO-Bench[content]地址:https://github.com/OpenLMLab/GAOKAO-BenchGAOKAO-bench是一个以中国高考题目为数据集，测评大模型语言理解能力、逻辑推理能力的测评框架[heading2]清华安全大模型测评[content]地址：http://115.182.62.166:18000清华收集的一个评测集，涵盖了仇恨言论、偏见歧视言论、犯罪违法、隐私、伦理道德等八大类别，包括细粒度划分的40余个二级安全类别[heading2]JioNLP个人测评[content]评测数据集：https://github.com/dongrixinyu/JioNLP/wiki/LLM评测数据集考察LLM模型对人类用户的帮助效果、辅助能力，可否达到一个【智能助手】的水平。题型介绍：选择题来源于中国大陆国内各种专业性考试，重点在于考察模型对客观知识的覆盖面，占比32%；主观题来源于日常总结，主要考察用户对LLM常用功能的效果。给了一些标准[heading2]EduTEP[content]华东师范大学计算机科学与技术学院EduNLP团队组建智能教育算法测评小组，开发智能教育可信评测平台（EduTEP）。EduTEP对比多种大模型在教育领域中的综合性能，针对K12教育发布首个CALM-EDU评测框架与CALM-EDU001评测报告[heading2]娱乐资本论[content]我们的测试并非旨在提供学术上的严谨标准，我们的目标是：从实用的角度出发，分析这些大模型在各种文本应用场景，如小红书带货文案、抖音直播文案、知乎问答、小说创作、公关信写作、歌词生成、淘宝商品详情页文案、广告宣传片文案、剧本创意策划等方面的综合表现

测试各种LLM

针对大模型的评估是最近一个很火的领域请问大家一般用什么问题，测试不同LLM模型的质量好坏大部分同学会用：1.检索和归纳2推理性3有日期相关历史事件等问题以下是几个专业做模型测评的网站1.这里有个网站做的非常全面：https://lmsys.org/blog/2023-05-03-arena/