Chat with Wiki - 模型评测

Answer

以下是关于模型评测的相关内容：

Llama2 模型评测：为了解其中文问答能力，筛选了具有代表性的中文问题进行提问，测试了 Meta 公开的 Llama2-7B-Chat 和 Llama2-13B-Chat 两个版本，未做任何微调和训练。测试问题涵盖通用知识、语言理解等八个类别，使用特定 Prompt，测试结果见相应文档。通过测试发现，该模型对于中文问答的对齐效果一般，基于中文数据的训练和微调十分必要。
LORA 模型训练超入门级教程中的模型测试：最后从炼丹炉内取最小值的模型为最佳，在 Output 文件夹下取出模型。可用 Stable Diffusion 的 xyz 图表脚本来测试不同权重下 Lora 的表现，包括选择 x 轴、y 轴类型等操作。
斯坦福发布大模型排行榜 AlpacaEval：相对于人工标注，全自动化的 AlpacaEval 经济成本和时间成本低。还探讨了什么评估数据能最好地区分模型，以及 AlpacaEval 支持两种模式的模型评估方式，评测过程分为三步，包括选择评估集、计算输出等，并建议使用特定的自动标注器。

Content generated by AI large model, please carefully verify (powered by aily)

References

为了能够更加清晰地了解Llama2模型的中文问答能力，我们筛选了一些具有代表性的中文问题，对Llama2模型进行提问。我们测试的模型包含Meta公开的Llama2-7B-Chat和Llama2-13B-Chat两个版本，没有做任何微调和训练。测试问题筛选自AtomBulb，共95个测试问题，包含：通用知识、语言理解、创作能力、逻辑推理、代码编程、工作技能、使用工具、人格特征八个大的类别。测试中使用的Prompt如下，例如对于问题“列出5种可以改善睡眠质量的方法”：Llama2-7B-Chat的测试结果见meta_eval_7B.md，Llama2-13B-Chat的测试结果见meta_eval_13B.md。通过测试我们发现，Meta原始的Llama2 Chat模型对于中文问答的对齐效果一般，大部分情况下都不能给出中文回答，或者是中英文混杂的形式。因此，基于中文数据对Llama2模型进行训练和微调十分必要。

《LORA模型训练超入门级教程》--人人都可以当炼金术士

最后从炼丹炉内取最小值的模型为最佳，没有效果再选取最终生成的版本。在Output文件夹下取出模型[heading2]Xyz图表测试[content]用Stable Diffusion的xyz图表脚本来测试不同权重下Lora的表现Xyz图表测试打开美术风格，选择脚本XYZ图表：1.x轴类型选择[可附加网络]权重1 x轴值：写你想测试的Lora权重即可。2.Y轴类型选择[可附加网络]模型1 Y轴值：填你你想测试的Lora模型名称。3.Z轴类型选不选都可以。*没有可选附加网络的请在插件列表里面安装[heading1]总结：[content]到这里就结束了~最后感谢大家观看本次教程，理论都是基础实际效果还是需要实践验证。第一次写教程（其实更偏学习过程中的总结），写的如果不好请轻喷，如有更好的见解欢迎在评论区讨论，我也还在摸索阶段也在更深入的学习训练模型知识。[heading1]成品图分享：[content]各位游戏人好，我们是LitGate，致力于发展AI+游戏创作的社区，这是我们第一版的wiki知识库，除了一些AI创作实操案例，也有一些的AI游戏创意demo，大家感兴趣的可以一起来讨论！本次的AI主题Gamejam游戏赛事，我们将作为本次大赛的合作社区进行支持，提供系列游戏从业者嘉宾、工具、经验指导。除了48小时GameJam极限开发挑战外，还会带来多场AI×游戏专题直播等活动。未来我们会更多聚焦AI产品、工具，在游戏生产管线应用和创意突破上实践，也非常欢迎各位朋友加入我们！可以多多关注我们公众号和知识库~

斯坦福发布大模型排行榜AlpacaEval

图注：人类一致性：标注者与交叉标注集中人类多数票之间的一致性。价格：每1000个标注的平均价格。时间：计算1000个标注所需的平均时间。相对于人工标注，全自动化的AlpacaEval仅需花费约1/22的经济成本和1/25的时间成本。另外，还有一个关键问题：什么评估数据可以最好地区分模型。团队从统计角度出发，在AlpacaEval的所有子集上检验这个问题。下图显示了AlpacaEval每个子集的80个实例上每对模型的配对t检验的p值。例如，我们看到Self-Instruct数据集产生的统计能力最小，这表明可以从评估集中删除该数据集。图注：不同基准评估数据集的质量02如何使用AlpacaEval评估模型AlpacaEval支持两种模式的模型评估方式：alpaca_eval：直接根据目标模型输出的响应来评估模型。alpaca_eval evaluate_from_model：根据HuggingFace已注册模型或这API提供商来端到端评测模型。评测过程分为以下3步：1.选择一个评估集，并计算指定为model_outputs的输出。默认情况下，我们使用来自AlpacaEval的805个示例。Copy1.计算golden输出reference_outputs。默认情况下，在AlpacaEval上使用text-davinci-003的输出。2.通过annotators_config选择指定的自动标注器，它将根据model_outputs和reference_outputs计算胜率。这里建议使用alpaca_eval_gpt4或claude。根据不同的标注器，使用者还需要在环境配置中设定API_KEY。