以下是一些大模型测评网站:
玉宝搞过一个LLM的在线评估,里面可以看到国内各个闭源大模型的HUMANEVAL测评得分,可以和QWEN2对比https://www.llmrank.cn/2023年8月起,通义千问密集推出Qwen、Qwen1.5、Qwen2三代开源模型,实现了全尺寸、全模态开源。不到一年时间,通义开源大模型性能不断突破,Qwen系列的72B、110B模型多次登顶HuggingFace的Open LLM Leaderboard开源模型榜单。(图说:HuggingFace的开源大模型排行榜Open LLM Leaderboard是目前大模型领域最具权威性的榜单,收录了全球上百个开源大模型的性能测试结果,Qwen-72B和Qwen1.5-110B都曾登顶这一榜单)二、在哪里可以体验Qwen2系列模型?Qwen2系列已上线魔搭社区ModelScope和阿里云百炼平台,开发者可在魔搭社区体验、下载模型,或通过阿里云百炼平台调用模型API。同时,Qwen2-72b-instruct模型已经上线中国大语言模型评测竞技场Compass Arena,所有人都可以登录体验Qwen2的性能,或者选择Qwen2模型与其他大模型进行对比测评。测评地址([https://opencompass.org.cn/arena](https://opencompass.org.cn/arena))。Compass Arena是由上海人工智能实验室和魔搭社区联合推出的大模型测评平台,集齐了国内主流的20多款大模型,包括阿里通义千问、百度文心一言、腾讯混元、讯飞星火、字节跳动豆包、智谱AI、百川智能、零一万物、月之暗面等等,用户可在平台选择大模型的两两“对战”,实名或匿名对战皆可。
https://www.guotaixia.com/post/5124.html[heading2]GAOKAO-Bench[content]地址:https://github.com/OpenLMLab/GAOKAO-BenchGAOKAO-bench是一个以中国高考题目为数据集,测评大模型语言理解能力、逻辑推理能力的测评框架[heading2]清华安全大模型测评[content]地址:http://115.182.62.166:18000清华收集的一个评测集,涵盖了仇恨言论、偏见歧视言论、犯罪违法、隐私、伦理道德等八大类别,包括细粒度划分的40余个二级安全类别[heading2]JioNLP个人测评[content]评测数据集:https://github.com/dongrixinyu/JioNLP/wiki/LLM评测数据集考察LLM模型对人类用户的帮助效果、辅助能力,可否达到一个【智能助手】的水平。题型介绍:选择题来源于中国大陆国内各种专业性考试,重点在于考察模型对客观知识的覆盖面,占比32%;主观题来源于日常总结,主要考察用户对LLM常用功能的效果。给了一些标准[heading2]EduTEP[content]华东师范大学计算机科学与技术学院EduNLP团队组建智能教育算法测评小组,开发智能教育可信评测平台(EduTEP)。EduTEP对比多种大模型在教育领域中的综合性能,针对K12教育发布首个CALM-EDU评测框架与CALM-EDU001评测报告[heading2]娱乐资本论[content]我们的测试并非旨在提供学术上的严谨标准,我们的目标是:从实用的角度出发,分析这些大模型在各种文本应用场景,如小红书带货文案、抖音直播文案、知乎问答、小说创作、公关信写作、歌词生成、淘宝商品详情页文案、广告宣传片文案、剧本创意策划等方面的综合表现
针对大模型的评估是最近一个很火的领域请问大家一般用什么问题,测试不同LLM模型的质量好坏大部分同学会用:1.检索和归纳2推理性3有日期相关历史事件等问题以下是几个专业做模型测评的网站1.这里有个网站做的非常全面:https://lmsys.org/blog/2023-05-03-arena/