Chat with Wiki - 大模型评测标准

Answer

大模型的评测标准通常包括以下方面：

多维度、多视角的综合性测评方案：
- 如中文大模型基准测评 2023 年度报告中，采用了由多轮开放问题 SuperCLUE-OPEN 和三大能力客观题 SuperCLUE-OPT 组成的评测集，共 4273 题，包括 1060 道多轮简答题（OPEN）和 3213 道客观选择题（OPT）。
- 在确定的评估标准指导下，OPEN 基准使用超级模型作为评判官，对比待评估模型与基准模型，计算胜和率作为 OPEN 得分，最终 SuperCLUE 总分由 0.7OPEN 分+0.3OPT 分计算得出，且经过人工校验。
- OPT 主要测评选择题，包括基础能力、中文特性、专业与学术能力，构造统一 prompt 供模型使用，要求选取唯一选项。多轮简答题 OPEN 更能反映模型真实能力，故权重设置较高。
特定的评测体系及开放平台：
- FlagEval（天秤）大模型评测体系及开放平台，旨在建立科学、公正、开放的评测基准、方法、工具集，创新构建了“能力-任务-指标”三维评测框架，细粒度刻画基础模型的认知能力边界，可视化呈现评测结果。
- C-Eval 构造了一个覆盖多个方向和学科，共 13948 道题目的中文知识和推理型测试集，并给出了当前主流中文 LLM 的评测结果。
- SuperCLUElyb 是中文通用大模型匿名对战评价基准，以众包方式提供匿名、随机的对战，并发布了初步结果和基于 Elo 评级系统的排行榜。
基于业务目标和特定场景的测评：
- 例如在开发基于 LangChain Chatchat 框架的产品时，基于业务目标和政策咨询场景，对回答的内容生成质量进行测评，主要包括是否理解问题、是否匹配正确政策原文、基于政策原文的回答是否准确全面、是否生成政策原文以外的内容、回答是否可靠以及不同轮次回答是否差异大、是否支持追问等方面。

Content generated by AI large model, please carefully verify (powered by aily)

References

2023年度中文大模型基准测评报告.pdf

为更真实反应大模型能力，本次测评采用多维度、多视角的综合性测评方案，由多轮开放问题SuperCLUE-OPEN和三大能力客观题SuperCLUE-OPT两持续扩充C L U E测评组OPEN在一个确定的评估标准指导下，OPEN基准使用超级模型作为评判官，使用一个待评估模型与一个基准模型进行对比，让超级模型选出A模型好，B模型好，或平局。进而计算胜和率作为OPEN得分。部分测评结果组成。评测集共4273题，其中1060道多轮简答题（OPEN），3213道客观选择题（OPT），以下为评测集与测评方法简述。评测反馈10万+题库被测模型A（如文心一言）VS多轮基线模型B（如GPT3.5）SuperCLUE总分不重复抽样裁判模型（如GPT4-Turbo）胜(3分)、和(1分)、负(0分)=5000原始评测集OPEN分=胜和率0.7*OPEN分+0.3*OPT分人工校验4273道评测题OPTOPT主要测评选择题，包括基础能力、中文特性、专业与学术能力。构造了统一的prompt供模型使用，要求模型选取ABCD中唯一的选项。注：多轮简答题OPEN更能反应模型真实能力，故权重设置提高。• 1060道多轮简答题（OPEN）被测模型A选择题库单选ABCD• 3213道客观选择题（OPT）OPT分=准确率

LLM开源中文大语言模型及数据集集合

[title]LLM开源中文大语言模型及数据集集合[heading3][heading4]4.EvaluationFlagEval（天秤）大模型评测体系及开放平台地址：[https://github.com/FlagOpen/FlagEval](https://github.com/FlagOpen/FlagEval)简介：旨在建立科学、公正、开放的评测基准、方法、工具集，协助研究人员全方位评估基础模型及训练算法的性能，同时探索利用AI方法实现对主观评测的辅助，大幅提升评测的效率和客观性。FlagEval（天秤）创新构建了“能力-任务-指标”三维评测框架，细粒度刻画基础模型的认知能力边界，可视化呈现评测结果。C-Eval:构造中文大模型的知识评估基准：地址：[https://github.com/SJTU-LIT/ceval](https://github.com/SJTU-LIT/ceval)简介：构造了一个覆盖人文，社科，理工，其他专业四个大方向，52个学科（微积分，线代…），从中学到大学研究生以及职业考试，一共13948道题目的中文知识和推理型测试集。此外还给出了当前主流中文LLM的评测结果。SuperCLUElyb:SuperCLUE琅琊榜地址：[https://github.com/CLUEbenchmark/SuperCLUElyb](https://github.com/CLUEbenchmark/SuperCLUElyb)简介：中文通用大模型匿名对战评价基准，这是一个中文通用大模型对战评价基准，它以众包的方式提供匿名、随机的对战。他们发布了初步的结果和基于Elo评级系统的排行榜。

开发：产品视角的大模型 RAG 应用

在开发基于LangChain Chatchat框架完成部署后，终于进入了激动人心的评测环节。大模型+知识库的组合，是否真的可以解决政策智能问答的顽疾，达到一个比较可用的效果呢？是骡子是马拉出来遛遛才知道。首先确定测评标准，基于业务目标和政策咨询的场景，对回答的内容生成质量进行测评，构建了一个测试集，并确定了评分标准，具体会在后面的文章中说明，这里先不做过多展开。主要包括以下方面：是否可以理解问题是否可以匹配正确的政策原文基于政策原文的回答是否准确基于政策原文的回答是否全面回答里是否生成了政策原文以外的内容回答是否可靠，不同轮次的回答是否差异大是否支持追问