以下是关于模型评测的相关内容:
为了能够更加清晰地了解Llama2模型的中文问答能力,我们筛选了一些具有代表性的中文问题,对Llama2模型进行提问。我们测试的模型包含Meta公开的Llama2-7B-Chat和Llama2-13B-Chat两个版本,没有做任何微调和训练。测试问题筛选自AtomBulb,共95个测试问题,包含:通用知识、语言理解、创作能力、逻辑推理、代码编程、工作技能、使用工具、人格特征八个大的类别。测试中使用的Prompt如下,例如对于问题“列出5种可以改善睡眠质量的方法”:Llama2-7B-Chat的测试结果见meta_eval_7B.md,Llama2-13B-Chat的测试结果见meta_eval_13B.md。通过测试我们发现,Meta原始的Llama2 Chat模型对于中文问答的对齐效果一般,大部分情况下都不能给出中文回答,或者是中英文混杂的形式。因此,基于中文数据对Llama2模型进行训练和微调十分必要。
最后从炼丹炉内取最小值的模型为最佳,没有效果再选取最终生成的版本。在Output文件夹下取出模型[heading2]Xyz图表测试[content]用Stable Diffusion的xyz图表脚本来测试不同权重下Lora的表现Xyz图表测试打开美术风格,选择脚本XYZ图表:1.x轴类型选择[可附加网络]权重1 x轴值:写你想测试的Lora权重即可。2.Y轴类型选择[可附加网络]模型1 Y轴值:填你你想测试的Lora模型名称。3.Z轴类型选不选都可以。*没有可选附加网络的请在插件列表里面安装[heading1]总结:[content]到这里就结束了~最后感谢大家观看本次教程,理论都是基础实际效果还是需要实践验证。第一次写教程(其实更偏学习过程中的总结),写的如果不好请轻喷,如有更好的见解欢迎在评论区讨论,我也还在摸索阶段也在更深入的学习训练模型知识。[heading1]成品图分享:[content]各位游戏人好,我们是LitGate,致力于发展AI+游戏创作的社区,这是我们第一版的wiki知识库,除了一些AI创作实操案例,也有一些的AI游戏创意demo,大家感兴趣的可以一起来讨论!本次的AI主题Gamejam游戏赛事,我们将作为本次大赛的合作社区进行支持,提供系列游戏从业者嘉宾、工具、经验指导。除了48小时GameJam极限开发挑战外,还会带来多场AI×游戏专题直播等活动。未来我们会更多聚焦AI产品、工具,在游戏生产管线应用和创意突破上实践,也非常欢迎各位朋友加入我们!可以多多关注我们公众号和知识库~
图注:人类一致性:标注者与交叉标注集中人类多数票之间的一致性。价格:每1000个标注的平均价格。时间:计算1000个标注所需的平均时间。相对于人工标注,全自动化的AlpacaEval仅需花费约1/22的经济成本和1/25的时间成本。另外,还有一个关键问题:什么评估数据可以最好地区分模型。团队从统计角度出发,在AlpacaEval的所有子集上检验这个问题。下图显示了AlpacaEval每个子集的80个实例上每对模型的配对t检验的p值。例如,我们看到Self-Instruct数据集产生的统计能力最小,这表明可以从评估集中删除该数据集。图注:不同基准评估数据集的质量02如何使用AlpacaEval评估模型AlpacaEval支持两种模式的模型评估方式:alpaca_eval:直接根据目标模型输出的响应来评估模型。alpaca_eval evaluate_from_model:根据HuggingFace已注册模型或这API提供商来端到端评测模型。评测过程分为以下3步:1.选择一个评估集,并计算指定为model_outputs的输出。默认情况下,我们使用来自AlpacaEval的805个示例。Copy1.计算golden输出reference_outputs。默认情况下,在AlpacaEval上使用text-davinci-003的输出。2.通过annotators_config选择指定的自动标注器,它将根据model_outputs和reference_outputs计算胜率。这里建议使用alpaca_eval_gpt4或claude。根据不同的标注器,使用者还需要在环境配置中设定API_KEY。