Chat with Wiki - 模型测评

Answer

以下是关于模型测评的相关内容：

Llama2 模型评测：为了解其中文问答能力，筛选了具有代表性的中文问题进行提问，测试了 Meta 公开的 Llama2-7B-Chat 和 Llama2-13B-Chat 两个版本，未做任何微调和训练。测试问题涵盖通用知识、语言理解等八个类别，使用特定 Prompt 进行测试，测试结果见相应文档。发现该模型对于中文问答的对齐效果一般，基于中文数据的训练和微调十分必要。
小七姐：文心一言 4.0、智谱清言、KimiChat 小样本测评：测评机制包括以同组提示词下 ChatGPT 4.0 生成的内容做对标参照，能力考量涵盖复杂提示词理解和执行、推理能力、文本生成能力、提示词设计能力、长文本归纳总结能力，测评轮次包括复杂提示词理解和执行、推理能力、文本生成能力、提示词设计能力、长文本归纳总结能力，每轮次均有不同的任务和模型测试次数。
斯坦福发布大模型排行榜 AlpacaEval：相对于人工标注，全自动化的 AlpacaEval 经济成本和时间成本低。从统计角度探讨了区分模型的评估数据，AlpacaEval 支持两种模式的模型评估方式，评测过程分为选择评估集并计算输出、计算 golden 输出、选择自动标注器并计算胜率三步。

Content generated by AI large model, please carefully verify (powered by aily)

References

为了能够更加清晰地了解Llama2模型的中文问答能力，我们筛选了一些具有代表性的中文问题，对Llama2模型进行提问。我们测试的模型包含Meta公开的Llama2-7B-Chat和Llama2-13B-Chat两个版本，没有做任何微调和训练。测试问题筛选自AtomBulb，共95个测试问题，包含：通用知识、语言理解、创作能力、逻辑推理、代码编程、工作技能、使用工具、人格特征八个大的类别。测试中使用的Prompt如下，例如对于问题“列出5种可以改善睡眠质量的方法”：Llama2-7B-Chat的测试结果见meta_eval_7B.md，Llama2-13B-Chat的测试结果见meta_eval_13B.md。通过测试我们发现，Meta原始的Llama2 Chat模型对于中文问答的对齐效果一般，大部分情况下都不能给出中文回答，或者是中英文混杂的形式。因此，基于中文数据对Llama2模型进行训练和微调十分必要。

小七姐：文心一言4.0、智谱清言、KimiChat 小样本测评

测评三家国产大模型，以同组提示词下ChatGPT 4.0生成的内容做对标参照[智谱清言](https://chatglm.cn/main/detail)[文心一言4.0](https://yiyan.baidu.com/)[Kimi Chat](https://kimi.moonshot.cn/chat/)[heading3]二、能力考量[content]复杂提示词理解和执行（结构化提示词）推理能力（CoT表现）文本生成能力（写作要求执行）提示词设计能力（让模型设计提示词）长文本归纳总结能力（论文阅读）[heading3]三、测评轮次[heading4]第一轮：复杂提示词理解和执行[content]1.任务一：Markdown+英文title提示词测试，1个任务4个模型（4次）2.任务二：Markdown+中文title提示词测试，1个任务4个模型（4次）3.任务三：中文title+自然段落提示词测试，1个任务4个模型（4次）[heading4]第二轮：推理能力（CoT表现）[content]逐步推理任务，遍历3个不同类型任务+4个大模型（12次）[heading4]第三轮：文本生成能力（写作要求执行）[content]根据提示词生成文本任务，遍历3个不同类型任务+4个大模型（12次）[heading4]第四轮：提示词设计能力（让模型设计提示词）[content]按提示词要求生成提示词，逐步推理任务，遍历3个不同类型任务+4个大模型（12次）[heading4]第五轮：长文本归纳总结能力（论文阅读）[content]按提供的长文本（上传或在线）进行归纳总结，逐步推理任务，遍历3个不同类型任务+4个大模型（12次）

斯坦福发布大模型排行榜AlpacaEval

图注：人类一致性：标注者与交叉标注集中人类多数票之间的一致性。价格：每1000个标注的平均价格。时间：计算1000个标注所需的平均时间。相对于人工标注，全自动化的AlpacaEval仅需花费约1/22的经济成本和1/25的时间成本。另外，还有一个关键问题：什么评估数据可以最好地区分模型。团队从统计角度出发，在AlpacaEval的所有子集上检验这个问题。下图显示了AlpacaEval每个子集的80个实例上每对模型的配对t检验的p值。例如，我们看到Self-Instruct数据集产生的统计能力最小，这表明可以从评估集中删除该数据集。图注：不同基准评估数据集的质量02如何使用AlpacaEval评估模型AlpacaEval支持两种模式的模型评估方式：alpaca_eval：直接根据目标模型输出的响应来评估模型。alpaca_eval evaluate_from_model：根据HuggingFace已注册模型或这API提供商来端到端评测模型。评测过程分为以下3步：1.选择一个评估集，并计算指定为model_outputs的输出。默认情况下，我们使用来自AlpacaEval的805个示例。Copy1.计算golden输出reference_outputs。默认情况下，在AlpacaEval上使用text-davinci-003的输出。2.通过annotators_config选择指定的自动标注器，它将根据model_outputs和reference_outputs计算胜率。这里建议使用alpaca_eval_gpt4或claude。根据不同的标注器，使用者还需要在环境配置中设定API_KEY。