Chat with Wiki - 测评集怎么准备？

Answer

准备测评集通常需要以下步骤：

确定评估标准：根据具体的业务目标和应用场景，明确测评的重点和要求。
构建测试题目：例如对于中文大模型，可以包括多轮开放问题和多种能力的客观选择题，如 2023 年度中文大模型基准测评报告中提到的 1060 道多轮简答题和 3213 道客观选择题。
考虑多维度和多视角：采用综合性的测评方案，全面评估模型的能力。
引入裁判模型：如使用超级模型作为评判官，对不同模型的表现进行对比和评分。
设定评分规则：明确胜、和、负的得分情况，并计算综合得分。
进行人工校验：确保测评题目的准确性和有效性。

在开发产品视角的大模型 RAG 应用时，评测环节首先要确定测评标准，包括是否理解问题、是否匹配正确政策原文、回答是否准确全面、是否生成原文以外内容、回答是否可靠以及是否支持追问等方面。对于菜品秀秀的 Bot 评测集，可以根据具体菜品的烹饪步骤、食材准备、口味特点等方面进行构建。

Content generated by AI large model, please carefully verify (powered by aily)

References

2023年度中文大模型基准测评报告.pdf

对大模型研发机构及应用开发者，为优化模型和场景应用提供了相对全面的视角。测评方法持续扩充C L U E测评组OPEN在一个确定的评估标准指导下，OPEN基准使用超级模型作为评判官，使用一个待评估模型与一个基准模型进行对比，让超级模型选出A模型好，B模型好，或平局。进而计算胜和率作为OPEN得分。为更真实反应大模型能力，本次测评采用多维度、多视角的综合性测评方案，由多轮开放问题SuperCLUE-OPEN和三大能力客观题SuperCLUE-OPT两部分测评结果组成。评测集共4273题，其中1060道多轮简答题（OPEN），3213道客观选择题（OPT），以下为评测集与测评方法简述。评测反馈10万+题库被测模型A（如文心一言）VS多轮基线模型B（如GPT3.5）SuperCLUE总分不重复抽样5000原始评测集裁判模型（如GPT4-Turbo）胜(3分)、和(1分)、负(0分)OPEN分=胜和率=0.7*OPEN分+0.3*OPT分人工校验4273道评测题OPT

清: coze比赛作品[菜品秀秀]大揭密

图片中的菜品是四季豆炒肉末。其烹饪方式大致如下：###四季豆炒肉末####食材：-**主材料**：新鲜四季豆200克，猪绞肉（肉末）100克。-**辅料**：蒜末1大勺，生姜末1小勺，葱花适量。-**调味料**：生抽1大勺，老抽1/2小勺（上色用，可选），细砂糖1/2小勺，盐适量，白胡椒粉少许，料酒1大勺，香油几滴，食用油适量。####烹饪步骤：1.**准备食材**：四季豆去两头并摘洗干净，切成约3厘米长的小段；猪绞肉提前解冻，用生抽、料酒腌制10分钟。2.**焯水**：四季豆入沸水中加少许盐焯水2-3分钟至断生，捞出过冷水保持翠绿色，沥干水分备用。3.**炒肉末**：锅中放油烧热，下入蒜末、姜末爆香，再加入腌好的肉末翻炒至变色。4.**合炒**：加入四季豆快速翻炒，调入生抽、老抽（可选）、糖、盐和白胡椒粉继续翻炒均匀。5.**调味出锅**：待四季豆完全熟透后，撒入葱花，滴几滴香油增香，快速拌匀即可出锅装盘。这道菜肴色香味俱佳，四季豆脆嫩与肉末的鲜香完美结合，非常适合家常下饭。

开发：产品视角的大模型 RAG 应用

在开发基于LangChain Chatchat框架完成部署后，终于进入了激动人心的评测环节。大模型+知识库的组合，是否真的可以解决政策智能问答的顽疾，达到一个比较可用的效果呢？是骡子是马拉出来遛遛才知道。首先确定测评标准，基于业务目标和政策咨询的场景，对回答的内容生成质量进行测评，构建了一个测试集，并确定了评分标准，具体会在后面的文章中说明，这里先不做过多展开。主要包括以下方面：是否可以理解问题是否可以匹配正确的政策原文基于政策原文的回答是否准确基于政策原文的回答是否全面回答里是否生成了政策原文以外的内容回答是否可靠，不同轮次的回答是否差异大是否支持追问