直达「 通往AGI之路 」飞书知识库 →
首页/问答列表/问答详情

SuperCLUE半年度测评报告

回答

以下是关于 SuperCLUE 半年度测评报告的相关内容:

趋势说明: 过去半年,国内领军大模型企业实现了代际追赶。7 月与 GPT3.5 有 20 分差距,之后每月稳定且大幅提升,11 月总分超越 GPT3.5。GPT3.5 和 GPT4 在中文表现上基本一致,11 月有下滑,国内头部模型持续稳健提升。12 月国内第一梯队模型与 GPT4 差距缩小,但仍需追赶。部分国内代表性模型 7 月至 12 月的得分情况为:文心一言 50.48、54.18、53.72、61.81、73.62、75;通义千问 41.73、33.78、43.36、61.01、71.78;ChatGLM 42.46、38.49、54.31、58.53、63.27、69.91。

测评方法: 采用多维度、多视角的综合性测评方案,包括多轮开放问题 SuperCLUE-OPEN 和三大能力客观题 SuperCLUE-OPT。评测集共 4273 题,其中 1060 道多轮简答题(OPEN),3213 道客观选择题(OPT)。OPEN 基准使用超级模型作为评判官,对比待评估模型与基准模型,计算胜和率作为 OPEN 得分。OPT 主要测评选择题,包括基础能力、中文特性、专业与学术能力,构造统一 prompt 供模型使用,要求选取唯一选项。SuperCLUE 总分由 0.7OPEN 分+0.3OPT 分计算得出。

第三方测评特点: SuperCLUE 始终秉持中立、客观的第三方测评理念,采用自动化方式的客观评估,降低人为评估的不确定性。测评方式与真实用户体验目标一致,纳入开放主观问题测评,通过多维度多视角多层次的评测体系和对话形式,模拟应用场景,考察模型生成能力,构建多轮对话场景,全方位评测大模型。同时,不限于学术领域的测评,旨在服务产业界,从多个维度的选择和设计到行业大模型测评基准的推出,都是为产业和应用服务,反映通用大模型与产业应用的差距,引导大模型提升技术落地效果。

内容由 AI 大模型生成,请仔细甄别(powered by aily)

参考资料

2023年度中文大模型基准测评报告.pdf

过去半年,国内领军大模型企业实现了大模型代际追赶的奇迹,从7月份与GPT3.5的20分差距,每个月都有稳定且巨大的提升,到11月份测评时已经完成总分上对GPT3.5的超越。我们可以看到GPT3.5和GPT4在中文上的表现情况基本一致,在11月份测评结果中显示,在中文能力都有一定的下滑,而国内头部模型则展现了继续稳健提升的能力。在12月份的测评结果中可以看到,国内第一梯队模型与GPT4的差距在缩小。但仍有较大的距离需要追赶。模型7月8月9月文心一言50.48 54.18 53.72通义千问41.73 33.78 ChatGLM 42.46 38.49 54.31部分国内代表性模型SuperCLUE基准得分(7月-12月)10月61.8143.3658.5311月73.6261.0163.2712月75 71.7869.91说明:趋势展示,选取了7月-12月SuperCLUE-OPEN测评分数。国内代表性模型,选取了文心一言、通义千问、ChatGLM。原因是综合考虑了过去半年SuperCLUE测评结果、长期稳定迭代及对国内大模型生态的贡献;GPT4成绩,由GPT4API(7-9月)与GPT4-Turbo(10-12月)组成,用以表现国外最好模型发展。

2023年度中文大模型基准测评报告.pdf

为更真实反应大模型能力,本次测评采用多维度、多视角的综合性测评方案,由多轮开放问题SuperCLUE-OPEN和三大能力客观题SuperCLUE-OPT两持续扩充C L U E测评组OPEN在一个确定的评估标准指导下,OPEN基准使用超级模型作为评判官,使用一个待评估模型与一个基准模型进行对比,让超级模型选出A模型好,B模型好,或平局。进而计算胜和率作为OPEN得分。部分测评结果组成。评测集共4273题,其中1060道多轮简答题(OPEN),3213道客观选择题(OPT),以下为评测集与测评方法简述。评测反馈10万+题库被测模型A(如文心一言)VS多轮基线模型B(如GPT3.5)SuperCLUE总分不重复抽样裁判模型(如GPT4-Turbo)胜(3分)、和(1分)、负(0分)=5000原始评测集OPEN分=胜和率0.7*OPEN分+0.3*OPT分人工校验4273道评测题OPTOPT主要测评选择题,包括基础能力、中文特性、专业与学术能力。构造了统一的prompt供模型使用,要求模型选取ABCD中唯一的选项。注:多轮简答题OPEN更能反应模型真实能力,故权重设置提高。• 1060道多轮简答题(OPEN)被测模型A选择题库单选ABCD• 3213道客观选择题(OPT)OPT分=准确率

2023年度中文大模型基准测评报告.pdf

SuperCLUE始终秉持中立、客观的第三方测评理念,不会预设立场或偏向特定的模型方。同时,SuperCLUE采用自动化方式的客观评估,大大降低评测过程中的人为评估的不确定性。[heading1]测评方式与真实用户体验目标一致[content]不同于传统测评通过选择题形式的测评,SuperCLUE目标是与真实用户体验目标保持一致,所以纳入了开放主观问题的测评。通过多维度多视角多层次的评测体系以及对话的形式,真实模拟大模型的应用场景,真实有效的考察模型生成能力。同时,SuperCLUE通过构建多轮对话场景,更深层次考察大模型在真实多轮对话场景的应用效果。对大模型的上下文、记忆、对话能力全方位评测。不限于学术领域的测评,更为了服务产业界不同于传统学术领域的评测,SuperCLUE从通用基准维度的选择、安全和智能体专项测评的设计,到行业大模型测评基准的推出,所有评测的目的都是为产业和应用服务。真实反应通用大模型与产业应用之间的差距,引导大模型提升技术落地效果,在通用能力的基础上更好的进行垂直领域的应用。测评层级

其他人在问
对AI功能的新型用户体验测评
以下是关于 AI 功能新型用户体验测评的相关内容: 生成式 AI 的第二阶段: 新的开发者工具和应用框架为公司创建更先进的 AI 应用提供可重用构建块,并帮助评估、改进和监控生产中的 AI 模型性能,如 Langsmith 和 Weights & Biases 等 LLMOps 工具。 AIfirst 基础设施公司如 Coreweave、Lambda Labs、Foundry、Replicate 和 Modal 正在解除公共云的捆绑,提供大量 GPU 及良好的 PaaS 开发者体验。 生成式 AI 优先的用户体验在进化,包括新兴产品蓝图,如从基于文本的对话用户体验到新的形态如 Perplexity 的生成用户界面、Inflection AI 的语音发声等新模态,以及新的编辑体验如 Copilot 到导演模式,还有像 Midjourney 的新平移命令和 Runway 的导演模式创造的新相机般编辑体验,Eleven Labs 使通过提示操作声音成为可能。 Top100 AI 消费者应用(第三版): 字节跳动于 2023 年底成立专注于生成式 AI 应用的研发部门 Flow,并从 2024 年初开始以其他公司名义在美国及海外推出新的 AI 应用。 在网页和移动端,新类别为审美和约会,包括三家新进入者 LooksMax AI、Umax 和 RIZZ。LooksMax 和 Umax 采集用户照片进行评分并给出“建议”,Umax 生成用户 10 分满分照片,LooksMax 分析用户声音确定吸引力。LooksMax 声称拥有超 200 万用户,Umax 声称拥有 100 万用户。 生成式 AI:下一个消费者平台: AI 能使产品个性化用户体验,早期应用已出现在教育科技和搜索中,预计这种定制将是许多 AI 启用产品的核心价值主张。后续文章将更深入研究相关领域,并分享评估消费者 AI 公司时提出的问题。
2024-08-28
国内外大模型测评
以下是关于国内外大模型测评的相关内容: 在 2023 年度的中文大模型基准测评中: 国内外大模型总体表现方面,90.63 分遥遥领先,高于其他国内大模型及国外大模型。国内最好模型文心一言 4.0(API)总分 79.02 分,距离 GPT4Turbo 有 11.61 分,距离 GPT4(网页)有 4.9 分的差距。过去 1 年国内大模型有长足进步,综合能力超过 GPT 3.5 和 GeminiPro 的模型有 11 个,如百度的文心一言 4.0、阿里云的通义千问 2.0 和 Qwen 72BChat、OPPO 的 AndesGPT、清华&智谱 AI 的智谱清言、字节跳动的云雀大模型等。在 SuperCLUE 测评中,国外模型平均成绩为 69.42 分,国内模型平均成绩为 65.95 分,差距在 4 分左右,且国内外平均水平差距在缩小,11 月差距在 10 分左右。阿里云的 Qwen72B、Yi 34BChat 均优于 Llama213BChat。 国内大模型竞争格局方面,从大厂和创业公司的平均成绩来看,大厂与创业公司差值约 6.33 分,较 11 月份差距在增大,说明大厂在大模型竞争中长期资源投入方面有一定优势。过去八个月国内模型在 SuperCLUE 基准上的前三名情况如下:12 月和 11 月的第一名是文心一言 4.0,10 月第一名是 BlueLM,9 月第一名是 SenseChat3.0,8 月第一名是 Baichuan213BChat,7 月第一名是文心一言(网页 v2.2.0),6 月第一名是 360 智脑,5 月第一名是 360 智脑。第二名在不同月份分别是通义千问 2.0、Moonshot 等。 主观和客观对比方面,通过对比模型在主观简答题 OPEN 和客观选择题 OPT 上的不同表现,国内大模型多数擅长做选择题,普遍选择题分数高于简答题分数。文心一言 4.0 和智谱清言表现相对稳定,分别为(13.38)和(14.01),GPT4 Turbo 的表现最为稳定,差值仅有 0.86。SuperCLUE 认为,客观题相对主观题更容易通过题库形式进行训练和提升,同时由于客观题中包含中文特性问题,中文模型有一定优势,应综合来看模型的评测效果。国外的代表性大模型如 GPT4 的不同版本、Claude2、Llama2 都有很好的稳定性表现,值得国内大模型进一步分析研究。
2024-08-15
有什么测评大模型可用性的自动化方案吗
评估大型模型的可用性是一个复杂的过程,涉及到多个方面的考量,包括准确性、效率、稳健性、可解释性和伦理等。虽然目前没有一个统一的自动化方案能够全面评估所有方面,但是有一些工具和方法可以用于自动化评估模型的某些特性。以下是一些常用的自动化方案和工具: 1. 单元测试和集成测试:对于模型的不同组件,可以使用单元测试来验证其是否按预期工作。集成测试则可以确保不同组件在一起时也能正常工作。 2. 基准测试和数据集:使用标准的数据集和基准测试来评估模型的性能。例如,对于自然语言处理模型,可以使用GLUE、SuperGLUE或SQuAD等数据集。 3. 模型卡片(Model Cards):模型卡片是一种文档,用于记录模型的性能、训练数据和预期的使用场景。这可以帮助用户了解模型的适用性和限制。 4. 连续集成/连续部署(CI/CD):使用CI/CD工具来自动化模型的测试和部署过程。例如,使用Jenkins、GitHub Actions或GitLab CI/CD来自动化测试和部署流程。 5. 自动化性能监控:使用工具如Prometheus和Grafana来监控模型的性能指标,如延迟、吞吐量和准确性。 6. 自动化回归测试:使用工具来定期运行回归测试,以确保模型的更新不会引入新的错误。 7. 可解释性和可视化工具:使用工具如LIME、SHAP或Captum来解释模型的决策,并使用TensorBoard等工具来可视化模型的训练过程。 8. 伦理和偏见检测:使用工具来检测模型输出中的偏见和伦理问题。例如,可以使用IBM的AI Fairness 360工具来检测和减轻机器学习模型中的偏见。 9. 模拟和沙盒环境:在模拟环境中测试模型的性能,以避免在实际部署中出现问题。 10. 云服务和平台:使用云服务提供商(如AWS、Google Cloud Platform、Azure)提供的自动化工具来部署和管理模型。 虽然这些工具和方法可以自动化评估模型的某些方面,但通常还需要人工参与来综合评估模型的可用性,特别是在涉及模型的可解释性和伦理问题时。因此,自动化方案应该与人工审核相结合,以确保模型的全面评估。
2024-04-17
AI编程调查报告
很抱歉,目前知识库中没有关于 AI 编程调查报告的相关内容。但一般来说,一份完整的 AI 编程调查报告可能会包含以下几个方面: 1. 引言:介绍调查的背景、目的和范围。 2. AI 编程的现状:包括当前主流的编程语言、框架和工具,以及它们的应用领域和发展趋势。 3. 技术挑战与解决方案:分析在 AI 编程中遇到的技术难题,如数据处理、模型训练、优化算法等,并探讨相应的解决办法。 4. 人才需求与培养:研究市场对 AI 编程人才的需求情况,以及相关的教育和培训资源。 5. 案例分析:列举一些成功的 AI 编程项目案例,展示其技术实现和应用效果。 6. 未来展望:对 AI 编程的未来发展方向进行预测和展望。 您可以根据具体的调查重点和需求,进一步明确和细化报告的内容。
2024-11-12
请根据提供的AI工具网址,搜索常用的AI工具,实际操作AI工具,记录使用过程中的感受和发现,提交一份体验报告,描述工具的使用过程和个人感受,并就AI相关的热点话题,AI伦理、AI与就业等简要发表自己的看法。
以下是一份关于常用 AI 工具的体验报告: 一、AI 工具使用过程和感受 1. 超级简历优化助手 使用过程:用户上传简历,工具分析内容并提供优化建议。 个人感受:对于求职者来说,能够针对性地提升简历质量,提高求职成功率,操作简单易懂。 2. 酷家乐等设计软件 使用过程:用户上传户型图,软件通过 AI 生成多种室内设计方案。 个人感受:为室内设计提供了便捷和丰富的创意,节省了设计时间和精力。 3. Amper Music 使用过程:用户提出需求,工具生成旋律和编曲。 个人感受:对音乐创作者有很大的辅助作用,激发创作灵感。 4. 松果倾诉智能助手 使用过程:通过文字或语音与用户交流,提供情感咨询。 个人感受:在情感支持方面提供了及时的帮助和建议。 5. 小佩宠物智能设备 使用过程:实时监测宠物的活动、饮食等状况,提供健康预警。 个人感受:让宠物主人能更方便地关注宠物健康。 6. 马蜂窝智能行程规划 使用过程:根据用户输入的目的地、时间等因素定制旅游路线。 个人感受:为旅行规划提供了个性化的方案,节省了规划时间。 7. 作业帮智能辅导 使用过程:根据学生的学习情况提供针对性的学习方案。 个人感受:有助于学生获得更贴合自身需求的学习辅导。 8. AI 游戏道具推荐系统 使用过程:在游戏中分析玩家风格和进度,推荐合适道具。 个人感受:提升了游戏体验,使玩家能更有效地获取所需道具。 9. AI 天气预报分时服务 使用过程:利用彩云天气提供每小时的天气预报。 个人感受:为出行和活动安排提供了更精准的参考。 10. AI 医疗病历分析平台 使用过程:分析医疗病历中的症状、检查结果等信息,为医生提供辅助诊断建议。 个人感受:有助于提高医疗诊断的准确性和效率。 11. AI 会议发言总结工具 使用过程:在会议中自动总结发言者的主要观点和重点内容。 个人感受:方便会议记录和回顾,提高工作效率。 12. AI 书法作品临摹辅助工具 使用过程:识别书法作品的笔画和结构,为用户提供临摹指导和评价。 个人感受:对书法爱好者的临摹学习有一定的帮助。 二、关于 AI 相关热点话题的看法 1. AI 伦理 随着 AI 技术的广泛应用,数据隐私、算法偏见等伦理问题日益凸显。需要建立健全的法律法规和伦理准则,确保 AI 的发展符合人类的价值观和利益。 2. AI 与就业 AI 的发展可能会导致一些传统岗位的减少,但同时也会创造新的就业机会,如 AI 开发、维护和管理等。重要的是通过教育和培训,提升劳动者的技能,以适应新的就业需求。 三、健身的 AI 产品 1. Keep:中国最大的健身平台,提供全面的健身解决方案,帮助用户实现健身目标。 2. Fiture:沸彻魔镜集硬件、丰富课程内容、明星教练和社区于一体。 3. Fitness AI:利用人工智能进行锻炼,增强力量和速度。 4. Planfit:健身房家庭训练与 AI 健身计划,AI 教练使用大量文本数据和 ChatGPT 实时提供指导。
2024-11-11
AI音乐调研报告
以下是为您提供的 AI 音乐调研报告: 一、2.21 资讯 生成式人工智能对音乐领域的影响研究:报告链接为 https://www.gema.de/documents/d/guest/gemasacemgoldmediaaiandmusicpdf 。该研究由 GEMA 和 SACEM 委托 Goldmedia 进行,探讨了生成式 AI 在音乐领域的快速发展及其对欧洲创意产业的广泛影响,强调了 AI 对创作者既是竞争源也是创新工具,提出确立可靠法律框架、保护知识产权、加强透明度和监管的必要性。 谷歌推出 MusicRL:生成符合人类偏好的音乐。 使用 Beatoven AI 的文生音乐功能给视频配乐。 HyperGANStrument:使用音高不变超网络进行乐器声音合成和编辑。 Stability AI 发布 Stable Audio AudioSparx 1.0 音乐模型。 二、2.22 资讯 通过音乐 AI 计算捕捉创造力:加州大学圣迭戈分校(UC San Diego)的 Jacob School of Engineering、音乐系和 Qualcomm 研究所共同发布的研究报告中,展示了通过计算方法捕捉和量化音乐创造力的创新性研究。利用 Multitrack Music Transformer,测量了音乐声部间的互动量,并与专业音乐家的评估对比,验证了量化方法的准确性和有效性,为理解人类与 AI 在音乐创作中的互动提供新视角,为未来音乐 AI 的发展和应用奠定理论基础。 走向音频语言建模——概述。 通过扩散模型的时变反演进行音乐风格迁移。 Nendo AI:让人又爱又恨的 AI 音频平台。 RipX DAW:混音师的理想选择。 三、3.4 资讯 接触不同类型的音乐会影响大脑如何解读节奏:研究显示人类大脑听音乐时倾向于识别和产生由简单整数比率组成的节奏,不同社会中偏好的比率大相径庭。该研究基于在 15 个国家进行的大规模研究,涉及 39 组参与者,许多来自传统音乐包含独特节奏模式的社会。研究揭示了音乐节奏感知和产生中存在跨文化的变异性,特定文化中的特定节奏在其音乐心理表征中占据重要地位。链接:https://thedigitalinsider.com/exposuretodifferentkindsofmusicinfluenceshowthebraininterpretsrhythm/
2024-11-09
分析报告生成
以下是关于分析报告生成的相关内容: 在生成报告方面,若想筛选指定时间段内的所有聊天对象来生成报告,可以使用相应的 SQL 语句,并通过获取去重后的微信群名来实现。批量化参数后能快速生成多篇群分析报告。应用效果很大程度依赖于 prompt 的优劣,可参考 ChatGPT 的最佳实践或吴恩达的免费课,学会高效提问很重要。 对于品牌舆论传播的分析报告,案例中的步骤包括:明确分析目标和范围、搜集与分析数据、生成舆论传播概括报告、提出建议、草拟危机声明。 此外,满足时效性的报告可以通过整合多部门协作,从敏感词挖掘到舆情分析报告自动生成,实现舆情监控全流程自动化,从而大幅提升信息流转与办公效率。
2024-11-05
State of AI 2024 报告
以下是关于《State of AI 2024》报告的相关信息: 该报告由来自剑桥大学的 AI 风险投资公司 Air Street Capital 创始人兼 CEO Nathan Benaich 和来自牛津大学的 Air Street Capital 平台负责人 Alex Chalmers 共同发表。 报告主要围绕人工智能(AI)领域的最新进展、政治动态、安全挑战及未来预测几大方面进行说明。 报告中的关键要点包括:OpenAI 的 o1 模型在数学、科学和推理方面重新定义了 AI 的极限;中国的 AI 模型在面对制裁时表现出色;生成式 AI 的初创公司获得巨大收益,但可持续性仍存在问题。 报告每年 10 月份发布,对未来 12 个月有 10 大预测,例如某主权国家将向一家美国大型 AI 实验室投资超 100 亿美元并引发国家安全审查等。报告链接为:
2024-11-04
帮我撰写专利分析报告的ai有哪些
以下是一些可用于撰写专利分析报告的 AI 工具和平台: 1. 专利检索与分类: Google Patents:使用 AI 技术帮助用户检索和分析专利文献。 IBM Watson for IP:利用 NLP 和机器学习技术,自动化地检索和分类专利文献,提高检索的准确性和效率。 2. 专利分析和评估: TurboPatent:使用 AI 技术进行专利文档的自动审查和分析,评估专利的授权可能性和潜在风险。 PatentBot:AI 驱动的平台,可以自动分析专利文本,评估专利的技术范围和创新性。 3. 自动化专利申请: Specifio:利用 AI 技术自动生成专利申请文件,包括专利说明书和权利要求书,提高专利申请的效率。 PatentPal:使用 AI 技术自动生成和编辑专利申请文件,减少人工工作量。 4. 专利图像和图表分析: Aulive:利用 AI 技术分析专利中的图像和图表,自动识别技术内容和创新点。 AIpowered image recognition tools:用于专利文献中的图像识别和分析,提高图像处理的效率和准确性。 5. 专利趋势分析和预测: Innography:利用 AI 技术分析专利数据,提供技术趋势分析和竞争情报。 PatSnap:AI 驱动的平台,分析专利数据和技术趋势,提供全面的专利情报和市场分析。 使用这些平台的一般步骤如下: 1. 注册和登录:在对应的平台上注册账户并登录。 2. 上传专利文献:上传待审查的专利文献或输入检索关键词。 3. 选择分析功能:根据需要选择专利检索、分析、评估或生成功能。 4. 查看结果和报告:查看 AI 生成的检索结果、分析报告和评估结果。 5. 进一步处理:根据分析结果进行进一步的人工审查和处理,或者直接生成专利申请文件。 需要注意的是,AI 技术在专利审查领域的应用,可以极大地提高工作效率,减少人工工作量,提高专利检索、分类和分析的准确性和效率。但在使用时,仍需仔细甄别结果。
2024-10-31