Chat with Wiki - 2024年度中文大模型基准测评报告

Answer

以下是关于 2024 年度中文大模型基准测评报告的相关信息：

2024 年 7 月 10 日：

《SuperCLUE：中文大模型基准测评 2024 年上半年报告》指出，2024 年上半年中文大模型技术取得显著进展，国内外模型差距缩小至 5%以内。国内开源模型如 Qwen2-72B 表现优异，超越众多闭源模型。端侧小模型发展迅速，落地可行性大幅提升。该报告通过多维度、多层次测评体系，全面评估了大模型的通用能力和专项能力，为行业发展提供了客观数据支持。同时也指出，尽管大模型在多领域展现潜力，但仍面临技术挑战和应用落地问题。

2024 年 11 月 8 日：

SuperCLUE 团队发布的新一期《SuperCLUE：中文大模型基准测评 2024 年 10 月报告》中有四点核心发现：1）OpenAI 发布 o1 后，全球大模型竞争加剧；2）国内大模型第一梯队竞争激烈，持续迭代表现不俗；3）国内外大模型在不同任务上表现各有优势；4）端侧小模型表现惊艳。

此外，Sora：大型视觉模型的背景、技术、局限性和机遇综述【官方论文】的参考文献包括：

[125]T.Shen,R.Jin,Y.Huang,C.Liu,W.Dong,Z.Guo,X.Wu,Y.Liu,和 D.Xiong,“大型语言模型对齐：一项调查”，arXiv 预印本 arXiv:2309.15025，2023 年。
[126]X.Liu,X.Lei,S.Wang,Y.Huang,Z.Feng,B.Wen,J.Cheng,P.Ke,Y.Xu,W.L.Tam,X.Zhang,L.Sun,H.Wang,J.Zhang,M.Huang,Y.Dong,和 J.Tang,“Alignbench：大型语言模型中文对齐的基准测试”，2023 年。
[127]P.Christiano,J.Leike,T.B.Brown,M.Martic,S.Legg,和 D.Amodei,“基于人类偏好的深度强化学习”，2023 年。
[128]T.Yu,Y.Yao,H.Zhang,T.He,Y.Han,G.Cui,J.Hu,Z.Liu,H.-T.Zheng,M.Sun,和 T.-S.Chua,“RLHF-V：通过细粒度校正人类反馈实现可信赖的 MLLMs 行为对齐”，2023 年。
[129]M.S.Jahan 和 M.Oussalah,“使用自然语言处理进行仇恨言论自动检测的系统综述。”，《神经计算》，第 126232 页，2023 年。
[130]OpenAI,“Sora 安全。”https://openai.com/sora#safety，2024 年。

Content generated by AI large model, please carefully verify (powered by aily)

References

4.4 历史更新

《[SuperCLUE：中文大模型基准测评2024年上半年报告](https://waytoagi.feishu.cn/record/JwxwrnmGheycFKcWXsbclGCjn4c)》2024年上半年，中文大模型技术取得显著进展，国内外模型差距缩小至5%以内。国内开源模型如Qwen2-72B表现优异，超越众多闭源模型。端侧小模型发展迅速，落地可行性大幅提升。SuperCLUE团队发布的报告，通过多维度、多层次测评体系，全面评估了大模型的通用能力和专项能力，为行业发展提供了客观数据支持。报告还指出，尽管大模型在多领域展现潜力，但仍面临技术挑战和应用落地问题。

4.4 历史更新

李继刚新写这个段子手效果太好了，提示词更新了：[李继刚：用Claude做卡片](https://waytoagi.feishu.cn/wiki/OWTow2oPViaMZ4ky2CKcRI30nGg)《[SuperCLUE：中文大模型基准测评2024年10月报告](https://waytoagi.feishu.cn/record/Opt7r6AyZeCNSec1Pp3ci7n9n6d)》SuperCLUE团队在新一期的[大模型评测报告](https://mp.weixin.qq.com/s/YvAnoCyalUU28ujDSgEqkg)中，有四点核心发现：1）OpenAI发布o1后，全球大模型竞争加剧；2）国内大模型第一梯队竞争激烈，持续迭代表现不俗；3）国内外大模型在不同任务上表现各有优势；4）端侧小模型表现惊艳。

Sora：大型视觉模型的背景、技术、局限性和机遇综述【官方论文】

[125]T.Shen,R.Jin,Y.Huang,C.Liu,W.Dong,Z.Guo,X.Wu,Y.Liu,和D.Xiong,“大型语言模型对齐：一项调查”，arXiv预印本arXiv:2309.15025，2023年。[126]X.Liu,X.Lei,S.Wang,Y.Huang,Z.Feng,B.Wen,J.Cheng,P.Ke,Y.Xu,W.L.Tam,X.Zhang,L.Sun,H.Wang,J.Zhang,M.Huang,Y.Dong,和J.Tang,“Alignbench：大型语言模型中文对齐的基准测试”，2023年。[127]P.Christiano,J.Leike,T.B.Brown,M.Martic,S.Legg,和D.Amodei,“基于人类偏好的深度强化学习”，2023年。[128]T.Yu,Y.Yao,H.Zhang,T.He,Y.Han,G.Cui,J.Hu,Z.Liu,H.-T.Zheng,M.Sun,和T.-S.Chua,“RLHF-V：通过细粒度校正人类反馈实现可信赖的MLLMs行为对齐”，2023年。[129]M.S.Jahan和M.Oussalah,“使用自然语言处理进行仇恨言论自动检测的系统综述。”，《神经计算》，第126232页，2023年。[130]OpenAI,“Sora安全。”https://openai.com/sora#safety，2024年。