以下是关于大模型评测的相关信息:
此外,还有小七姐对文心一言 4.0、智谱清言、KimiChat 的小样本测评,测评机制包括:
测试大模型质量好坏时,常用的问题包括检索和归纳、推理性、有日期相关历史事件等。以下是几个专业做模型测评的网站:https://lmsys.org/blog/2023-05-03-arena/
FlagEval(天秤)大模型评测体系及开放平台地址:[https://github.com/FlagOpen/FlagEval](https://github.com/FlagOpen/FlagEval)简介:旨在建立科学、公正、开放的评测基准、方法、工具集,协助研究人员全方位评估基础模型及训练算法的性能,同时探索利用AI方法实现对主观评测的辅助,大幅提升评测的效率和客观性。FlagEval(天秤)创新构建了“能力-任务-指标”三维评测框架,细粒度刻画基础模型的认知能力边界,可视化呈现评测结果。C-Eval:构造中文大模型的知识评估基准:地址:[https://github.com/SJTU-LIT/ceval](https://github.com/SJTU-LIT/ceval)简介:构造了一个覆盖人文,社科,理工,其他专业四个大方向,52个学科(微积分,线代…),从中学到大学研究生以及职业考试,一共13948道题目的中文知识和推理型测试集。此外还给出了当前主流中文LLM的评测结果。SuperCLUElyb:SuperCLUE琅琊榜地址:[https://github.com/CLUEbenchmark/SuperCLUElyb](https://github.com/CLUEbenchmark/SuperCLUElyb)简介:中文通用大模型匿名对战评价基准,这是一个中文通用大模型对战评价基准,它以众包的方式提供匿名、随机的对战。他们发布了初步的结果和基于Elo评级系统的排行榜。
测评三家国产大模型,以同组提示词下ChatGPT 4.0生成的内容做对标参照[智谱清言](https://chatglm.cn/main/detail)[文心一言4.0](https://yiyan.baidu.com/)[Kimi Chat](https://kimi.moonshot.cn/chat/)[heading3]二、能力考量[content]复杂提示词理解和执行(结构化提示词)推理能力(CoT表现)文本生成能力(写作要求执行)提示词设计能力(让模型设计提示词)长文本归纳总结能力(论文阅读)[heading3]三、测评轮次[heading4]第一轮:复杂提示词理解和执行[content]1.任务一:Markdown+英文title提示词测试,1个任务4个模型(4次)2.任务二:Markdown+中文title提示词测试,1个任务4个模型(4次)3.任务三:中文title+自然段落提示词测试,1个任务4个模型(4次)[heading4]第二轮:推理能力(CoT表现)[content]逐步推理任务,遍历3个不同类型任务+4个大模型(12次)[heading4]第三轮:文本生成能力(写作要求执行)[content]根据提示词生成文本任务,遍历3个不同类型任务+4个大模型(12次)[heading4]第四轮:提示词设计能力(让模型设计提示词)[content]按提示词要求生成提示词,逐步推理任务,遍历3个不同类型任务+4个大模型(12次)[heading4]第五轮:长文本归纳总结能力(论文阅读)[content]按提供的长文本(上传或在线)进行归纳总结,逐步推理任务,遍历3个不同类型任务+4个大模型(12次)
针对大模型的评估是最近一个很火的领域请问大家一般用什么问题,测试不同LLM模型的质量好坏大部分同学会用:1.检索和归纳2推理性3有日期相关历史事件等问题以下是几个专业做模型测评的网站1.这里有个网站做的非常全面:https://lmsys.org/blog/2023-05-03-arena/