直达「 通往AGI之路 」飞书知识库 →
首页/问答列表/问答详情

SuperCLUE半年度测评报告

回答

以下是关于 SuperCLUE 半年度测评报告的相关内容:

趋势说明: 过去半年,国内领军大模型企业实现了代际追赶。7 月与 GPT3.5 有 20 分差距,之后每月稳定且大幅提升,11 月总分超越 GPT3.5。GPT3.5 和 GPT4 在中文表现上基本一致,11 月有下滑,国内头部模型持续稳健提升。12 月国内第一梯队模型与 GPT4 差距缩小,但仍需追赶。部分国内代表性模型 7 月至 12 月的得分情况为:文心一言 50.48、54.18、53.72、61.81、73.62、75;通义千问 41.73、33.78、43.36、61.01、71.78;ChatGLM 42.46、38.49、54.31、58.53、63.27、69.91。

测评方法: 采用多维度、多视角的综合性测评方案,包括多轮开放问题 SuperCLUE-OPEN 和三大能力客观题 SuperCLUE-OPT。评测集共 4273 题,其中 1060 道多轮简答题(OPEN),3213 道客观选择题(OPT)。OPEN 基准使用超级模型作为评判官,对比待评估模型与基准模型,计算胜和率作为 OPEN 得分。OPT 主要测评选择题,包括基础能力、中文特性、专业与学术能力,构造统一 prompt 供模型使用,要求选取唯一选项。SuperCLUE 总分由 0.7OPEN 分+0.3OPT 分计算得出。

第三方测评特点: SuperCLUE 始终秉持中立、客观的第三方测评理念,采用自动化方式的客观评估,降低人为评估的不确定性。测评方式与真实用户体验目标一致,纳入开放主观问题测评,通过多维度多视角多层次的评测体系和对话形式,模拟应用场景,考察模型生成能力,构建多轮对话场景,全方位评测大模型。同时,不限于学术领域的测评,旨在服务产业界,从多个维度的选择和设计到行业大模型测评基准的推出,都是为产业和应用服务,反映通用大模型与产业应用的差距,引导大模型提升技术落地效果。

内容由 AI 大模型生成,请仔细甄别(powered by aily)

参考资料

2023年度中文大模型基准测评报告.pdf

过去半年,国内领军大模型企业实现了大模型代际追赶的奇迹,从7月份与GPT3.5的20分差距,每个月都有稳定且巨大的提升,到11月份测评时已经完成总分上对GPT3.5的超越。我们可以看到GPT3.5和GPT4在中文上的表现情况基本一致,在11月份测评结果中显示,在中文能力都有一定的下滑,而国内头部模型则展现了继续稳健提升的能力。在12月份的测评结果中可以看到,国内第一梯队模型与GPT4的差距在缩小。但仍有较大的距离需要追赶。模型7月8月9月文心一言50.48 54.18 53.72通义千问41.73 33.78 ChatGLM 42.46 38.49 54.31部分国内代表性模型SuperCLUE基准得分(7月-12月)10月61.8143.3658.5311月73.6261.0163.2712月75 71.7869.91说明:趋势展示,选取了7月-12月SuperCLUE-OPEN测评分数。国内代表性模型,选取了文心一言、通义千问、ChatGLM。原因是综合考虑了过去半年SuperCLUE测评结果、长期稳定迭代及对国内大模型生态的贡献;GPT4成绩,由GPT4API(7-9月)与GPT4-Turbo(10-12月)组成,用以表现国外最好模型发展。

2023年度中文大模型基准测评报告.pdf

为更真实反应大模型能力,本次测评采用多维度、多视角的综合性测评方案,由多轮开放问题SuperCLUE-OPEN和三大能力客观题SuperCLUE-OPT两持续扩充C L U E测评组OPEN在一个确定的评估标准指导下,OPEN基准使用超级模型作为评判官,使用一个待评估模型与一个基准模型进行对比,让超级模型选出A模型好,B模型好,或平局。进而计算胜和率作为OPEN得分。部分测评结果组成。评测集共4273题,其中1060道多轮简答题(OPEN),3213道客观选择题(OPT),以下为评测集与测评方法简述。评测反馈10万+题库被测模型A(如文心一言)VS多轮基线模型B(如GPT3.5)SuperCLUE总分不重复抽样裁判模型(如GPT4-Turbo)胜(3分)、和(1分)、负(0分)=5000原始评测集OPEN分=胜和率0.7*OPEN分+0.3*OPT分人工校验4273道评测题OPTOPT主要测评选择题,包括基础能力、中文特性、专业与学术能力。构造了统一的prompt供模型使用,要求模型选取ABCD中唯一的选项。注:多轮简答题OPEN更能反应模型真实能力,故权重设置提高。• 1060道多轮简答题(OPEN)被测模型A选择题库单选ABCD• 3213道客观选择题(OPT)OPT分=准确率

2023年度中文大模型基准测评报告.pdf

SuperCLUE始终秉持中立、客观的第三方测评理念,不会预设立场或偏向特定的模型方。同时,SuperCLUE采用自动化方式的客观评估,大大降低评测过程中的人为评估的不确定性。[heading1]测评方式与真实用户体验目标一致[content]不同于传统测评通过选择题形式的测评,SuperCLUE目标是与真实用户体验目标保持一致,所以纳入了开放主观问题的测评。通过多维度多视角多层次的评测体系以及对话的形式,真实模拟大模型的应用场景,真实有效的考察模型生成能力。同时,SuperCLUE通过构建多轮对话场景,更深层次考察大模型在真实多轮对话场景的应用效果。对大模型的上下文、记忆、对话能力全方位评测。不限于学术领域的测评,更为了服务产业界不同于传统学术领域的评测,SuperCLUE从通用基准维度的选择、安全和智能体专项测评的设计,到行业大模型测评基准的推出,所有评测的目的都是为产业和应用服务。真实反应通用大模型与产业应用之间的差距,引导大模型提升技术落地效果,在通用能力的基础上更好的进行垂直领域的应用。测评层级

其他人在问
对AI功能的新型用户体验测评
以下是关于 AI 功能新型用户体验测评的相关内容: 生成式 AI 的第二阶段: 新的开发者工具和应用框架为公司创建更先进的 AI 应用提供可重用构建块,并帮助评估、改进和监控生产中的 AI 模型性能,如 Langsmith 和 Weights & Biases 等 LLMOps 工具。 AIfirst 基础设施公司如 Coreweave、Lambda Labs、Foundry、Replicate 和 Modal 正在解除公共云的捆绑,提供大量 GPU 及良好的 PaaS 开发者体验。 生成式 AI 优先的用户体验在进化,包括新兴产品蓝图,如从基于文本的对话用户体验到新的形态如 Perplexity 的生成用户界面、Inflection AI 的语音发声等新模态,以及新的编辑体验如 Copilot 到导演模式,还有像 Midjourney 的新平移命令和 Runway 的导演模式创造的新相机般编辑体验,Eleven Labs 使通过提示操作声音成为可能。 Top100 AI 消费者应用(第三版): 字节跳动于 2023 年底成立专注于生成式 AI 应用的研发部门 Flow,并从 2024 年初开始以其他公司名义在美国及海外推出新的 AI 应用。 在网页和移动端,新类别为审美和约会,包括三家新进入者 LooksMax AI、Umax 和 RIZZ。LooksMax 和 Umax 采集用户照片进行评分并给出“建议”,Umax 生成用户 10 分满分照片,LooksMax 分析用户声音确定吸引力。LooksMax 声称拥有超 200 万用户,Umax 声称拥有 100 万用户。 生成式 AI:下一个消费者平台: AI 能使产品个性化用户体验,早期应用已出现在教育科技和搜索中,预计这种定制将是许多 AI 启用产品的核心价值主张。后续文章将更深入研究相关领域,并分享评估消费者 AI 公司时提出的问题。
2024-08-28
国内外大模型测评
以下是关于国内外大模型测评的相关内容: 在 2023 年度的中文大模型基准测评中: 国内外大模型总体表现方面,90.63 分遥遥领先,高于其他国内大模型及国外大模型。国内最好模型文心一言 4.0(API)总分 79.02 分,距离 GPT4Turbo 有 11.61 分,距离 GPT4(网页)有 4.9 分的差距。过去 1 年国内大模型有长足进步,综合能力超过 GPT 3.5 和 GeminiPro 的模型有 11 个,如百度的文心一言 4.0、阿里云的通义千问 2.0 和 Qwen 72BChat、OPPO 的 AndesGPT、清华&智谱 AI 的智谱清言、字节跳动的云雀大模型等。在 SuperCLUE 测评中,国外模型平均成绩为 69.42 分,国内模型平均成绩为 65.95 分,差距在 4 分左右,且国内外平均水平差距在缩小,11 月差距在 10 分左右。阿里云的 Qwen72B、Yi 34BChat 均优于 Llama213BChat。 国内大模型竞争格局方面,从大厂和创业公司的平均成绩来看,大厂与创业公司差值约 6.33 分,较 11 月份差距在增大,说明大厂在大模型竞争中长期资源投入方面有一定优势。过去八个月国内模型在 SuperCLUE 基准上的前三名情况如下:12 月和 11 月的第一名是文心一言 4.0,10 月第一名是 BlueLM,9 月第一名是 SenseChat3.0,8 月第一名是 Baichuan213BChat,7 月第一名是文心一言(网页 v2.2.0),6 月第一名是 360 智脑,5 月第一名是 360 智脑。第二名在不同月份分别是通义千问 2.0、Moonshot 等。 主观和客观对比方面,通过对比模型在主观简答题 OPEN 和客观选择题 OPT 上的不同表现,国内大模型多数擅长做选择题,普遍选择题分数高于简答题分数。文心一言 4.0 和智谱清言表现相对稳定,分别为(13.38)和(14.01),GPT4 Turbo 的表现最为稳定,差值仅有 0.86。SuperCLUE 认为,客观题相对主观题更容易通过题库形式进行训练和提升,同时由于客观题中包含中文特性问题,中文模型有一定优势,应综合来看模型的评测效果。国外的代表性大模型如 GPT4 的不同版本、Claude2、Llama2 都有很好的稳定性表现,值得国内大模型进一步分析研究。
2024-08-15
有什么测评大模型可用性的自动化方案吗
评估大型模型的可用性是一个复杂的过程,涉及到多个方面的考量,包括准确性、效率、稳健性、可解释性和伦理等。虽然目前没有一个统一的自动化方案能够全面评估所有方面,但是有一些工具和方法可以用于自动化评估模型的某些特性。以下是一些常用的自动化方案和工具: 1. 单元测试和集成测试:对于模型的不同组件,可以使用单元测试来验证其是否按预期工作。集成测试则可以确保不同组件在一起时也能正常工作。 2. 基准测试和数据集:使用标准的数据集和基准测试来评估模型的性能。例如,对于自然语言处理模型,可以使用GLUE、SuperGLUE或SQuAD等数据集。 3. 模型卡片(Model Cards):模型卡片是一种文档,用于记录模型的性能、训练数据和预期的使用场景。这可以帮助用户了解模型的适用性和限制。 4. 连续集成/连续部署(CI/CD):使用CI/CD工具来自动化模型的测试和部署过程。例如,使用Jenkins、GitHub Actions或GitLab CI/CD来自动化测试和部署流程。 5. 自动化性能监控:使用工具如Prometheus和Grafana来监控模型的性能指标,如延迟、吞吐量和准确性。 6. 自动化回归测试:使用工具来定期运行回归测试,以确保模型的更新不会引入新的错误。 7. 可解释性和可视化工具:使用工具如LIME、SHAP或Captum来解释模型的决策,并使用TensorBoard等工具来可视化模型的训练过程。 8. 伦理和偏见检测:使用工具来检测模型输出中的偏见和伦理问题。例如,可以使用IBM的AI Fairness 360工具来检测和减轻机器学习模型中的偏见。 9. 模拟和沙盒环境:在模拟环境中测试模型的性能,以避免在实际部署中出现问题。 10. 云服务和平台:使用云服务提供商(如AWS、Google Cloud Platform、Azure)提供的自动化工具来部署和管理模型。 虽然这些工具和方法可以自动化评估模型的某些方面,但通常还需要人工参与来综合评估模型的可用性,特别是在涉及模型的可解释性和伦理问题时。因此,自动化方案应该与人工审核相结合,以确保模型的全面评估。
2024-04-17
AI 行业报告
以下是为您提供的 AI 行业报告相关信息: 2024 年 3 月 13 日在同步更新了数份 AI 相关报告,包括: 《》 《》 《》 《》 《》 此外,还有关于“行业调研报告”怎么写的内容,作者 JessieZTalk 大厂产品出身,理工科+商科背景,关注商业、AI 科技、互联网营销。本文结合【AI 工具】与【作者自己的“行业调研报告”专业知识】,一步步拆解“行业调研报告”方法论和技巧,对于写“各个行业研究报告”都有参考意义。原文链接:
2024-10-15
大模型人才报告
以下是为您提供的大模型相关报告和指南: 《》由蚂蚁集团和中国信通院联合发布,探讨了大模型在金融、医疗、政务等行业的应用挑战和解决方案,提出了系统化的可信应用框架,并从多方面提供了技术实现建议。 其他相关报告发布在,包括: 《》 《》 《》 《》 大模型入门指南:原文地址为 https://mp.weixin.qq.com/s/9nJ7g2mo7nOv4iGXT_CPNg ,作者为写代码的西瓜。该指南主要介绍作者在搭建大模型过程中学到的知识,以及如何在 macOS 上运行大模型。
2024-10-15
AIGC技术增强学生创造性问题解决表现的实证研究,这个论文的开题报告怎么写?
很抱歉,目前知识库中没有关于“AIGC 技术增强学生创造性问题解决表现的实证研究”这个论文开题报告的相关内容。但一般来说,开题报告可以包含以下几个部分: 一、选题背景与意义 1. 阐述 AIGC 技术的发展现状和趋势。 2. 说明学生创造性问题解决能力的重要性。 3. 分析 AIGC 技术与学生创造性问题解决能力之间的关联。 二、研究目的与问题 1. 明确研究旨在探究 AIGC 技术对学生创造性问题解决表现的具体影响。 2. 提出具体的研究问题,例如:AIGC 技术如何提升学生的创造性思维?AIGC 技术在不同学科中的应用效果是否存在差异? 三、研究方法 1. 描述拟采用的实证研究方法,如实验、调查、案例分析等。 2. 说明研究对象的选择,包括学生的年级、学科背景等。 3. 介绍数据收集和分析的方法。 四、预期结果与创新点 1. 预测研究可能得出的结果,例如 AIGC 技术能够显著提高学生的创造性问题解决能力。 2. 指出研究的创新之处,比如新的研究视角、独特的研究方法或对现有理论的拓展。 五、研究计划与进度安排 1. 制定详细的研究计划,包括各个阶段的任务和时间节点。 2. 说明可能遇到的困难及解决措施。 六、参考文献 列出与 AIGC 技术和学生创造性问题解决相关的重要文献。 以上内容仅供参考,您可以根据实际研究情况进行调整和完善。
2024-10-09
2024大模型人才报告
以下是 2024 年部分大模型相关的人才报告及研究报告: 2024 年 9 月 10 日,《》由蚂蚁集团和中国信通院联合发布,探讨了大模型在金融、医疗、政务等行业的应用挑战和解决方案,提出了系统化的可信应用框架,并从多方面提供了技术实现建议。 2024 年 1 月 24 日,《》由中国社科院和腾讯研究院发布,通过实验观察到部分社会群体期待大模型有“人情味”。 2024 年 2 月 4 日,更新了多份研究报告文档,如《》等。 此外,还有以下相关报告: 《》 《》 《》 《》 您可以通过以下链接获取更多详细内容: 研究报告板块: 知识星球:
2024-10-08
量子位:2024中国AIGC广告营销产业全景报告
以下是关于《量子位:2024 中国 AIGC 广告营销产业全景报告》的相关信息: 生成式 AI 从供给端到需求端对广告营销各环节玩家造成冲击。在工作流程方面,AI 最先赋能策略洞察与内容生产,大模型加持的数字人带来全新交互体验。在典型场景中,创意生产工具呈平民化趋势,品牌可以为“一个人”量身定制广告。同时,生成式 AI 在创新广告形式、实现自动化营销、企业商业模式革新上重塑了广告营销格局。
2024-09-30
AI分析数据表格并形成数据报告
目前知识库中没有关于 AI 分析数据表格并形成数据报告的具体内容。但一般来说,要让 AI 分析数据表格并形成数据报告,您可以考虑使用一些专门的数据处理和分析工具,例如 Python 中的 Pandas 库,它提供了丰富的函数和方法来读取、处理和分析表格数据。另外,一些商业智能软件如 Tableau、Power BI 等也具备强大的数据处理和报告生成功能。在使用 AI 进行数据处理时,您需要明确数据的格式、分析的目标以及期望的报告形式和内容,以便更有效地利用相关技术和工具来实现您的需求。
2024-09-11