与知识库对话 - 大模型评测

回答

以下是关于大模型评测的相关信息：

招聘信息：有大模型算法工程师/产品经理（实习）岗位在北京，工作包括大模型效果评测，要求研究生及以上学历，相关专业优先，有相关实习经验、代码能力强等。
开源评测体系及平台：
- FlagEval（天秤）：旨在建立科学、公正、开放的评测基准、方法、工具集，创新构建了“能力-任务-指标”三维评测框架。
- C-Eval：构造了覆盖多学科的中文知识和推理型测试集，并给出主流中文 LLM 的评测结果。
- SuperCLUElyb：中文通用大模型匿名对战评价基准，发布了初步结果和基于 Elo 评级系统的排行榜。
测评示例：小七姐对文心一言 4.0、智谱清言、KimiChat 进行小样本测评，包括测评机制、目标、能力考量和多轮测评任务，如复杂提示词理解和执行、推理能力、文本生成能力、提示词设计能力、长文本归纳总结能力等，每轮测评都有不同的任务和模型参与。

内容由 AI 大模型生成，请仔细甄别（powered by aily）

参考资料

[heading1]大模型算法工程师/产品经理（实习）——北京2、大模型效果评测:针对大模型效果的综合评估，开发、沉淀并持续优化评测方法，确立评测流程及标准化工作，执行评测任务并撰写分析报告，推进大模型优化。3、协助算法及产品同学不断提高AI准确性，提升用户体验基本要求:1、研究生及以上学历，计算机、金融、数据分析等相关专业优先。熟悉大模型及相关NLP技术者优先2、有AIGC相关实习经验者优先3、代码能力强且有利用大模型解决编程问题的经验，能够熟练的使用python、sql、java等工具，能独立完成数据分析/处理任务优先4、能够尽快到岗，每周5天出勤，实习时间4个月以上

LLM开源中文大语言模型及数据集集合

FlagEval（天秤）大模型评测体系及开放平台地址：[https://github.com/FlagOpen/FlagEval](https://github.com/FlagOpen/FlagEval)简介：旨在建立科学、公正、开放的评测基准、方法、工具集，协助研究人员全方位评估基础模型及训练算法的性能，同时探索利用AI方法实现对主观评测的辅助，大幅提升评测的效率和客观性。FlagEval（天秤）创新构建了“能力-任务-指标”三维评测框架，细粒度刻画基础模型的认知能力边界，可视化呈现评测结果。C-Eval:构造中文大模型的知识评估基准：地址：[https://github.com/SJTU-LIT/ceval](https://github.com/SJTU-LIT/ceval)简介：构造了一个覆盖人文，社科，理工，其他专业四个大方向，52个学科（微积分，线代…），从中学到大学研究生以及职业考试，一共13948道题目的中文知识和推理型测试集。此外还给出了当前主流中文LLM的评测结果。SuperCLUElyb:SuperCLUE琅琊榜地址：[https://github.com/CLUEbenchmark/SuperCLUElyb](https://github.com/CLUEbenchmark/SuperCLUElyb)简介：中文通用大模型匿名对战评价基准，这是一个中文通用大模型对战评价基准，它以众包的方式提供匿名、随机的对战。他们发布了初步的结果和基于Elo评级系统的排行榜。

小七姐：文心一言4.0、智谱清言、KimiChat 小样本测评

测评三家国产大模型，以同组提示词下ChatGPT 4.0生成的内容做对标参照[智谱清言](https://chatglm.cn/main/detail)[文心一言4.0](https://yiyan.baidu.com/)[Kimi Chat](https://kimi.moonshot.cn/chat/)[heading3]二、能力考量[content]复杂提示词理解和执行（结构化提示词）推理能力（CoT表现）文本生成能力（写作要求执行）提示词设计能力（让模型设计提示词）长文本归纳总结能力（论文阅读）[heading3]三、测评轮次[heading4]第一轮：复杂提示词理解和执行[content]1.任务一：Markdown+英文title提示词测试，1个任务4个模型（4次）2.任务二：Markdown+中文title提示词测试，1个任务4个模型（4次）3.任务三：中文title+自然段落提示词测试，1个任务4个模型（4次）[heading4]第二轮：推理能力（CoT表现）[content]逐步推理任务，遍历3个不同类型任务+4个大模型（12次）[heading4]第三轮：文本生成能力（写作要求执行）[content]根据提示词生成文本任务，遍历3个不同类型任务+4个大模型（12次）[heading4]第四轮：提示词设计能力（让模型设计提示词）[content]按提示词要求生成提示词，逐步推理任务，遍历3个不同类型任务+4个大模型（12次）[heading4]第五轮：长文本归纳总结能力（论文阅读）[content]按提供的长文本（上传或在线）进行归纳总结，逐步推理任务，遍历3个不同类型任务+4个大模型（12次）