以下是关于 2024 年度中文大模型基准测评报告的相关信息:
2024 年 7 月 10 日:
2024 年 11 月 8 日:
此外,Sora:大型视觉模型的背景、技术、局限性和机遇综述【官方论文】的参考文献包括:
《[SuperCLUE:中文大模型基准测评2024年上半年报告](https://waytoagi.feishu.cn/record/JwxwrnmGheycFKcWXsbclGCjn4c)》2024年上半年,中文大模型技术取得显著进展,国内外模型差距缩小至5%以内。国内开源模型如Qwen2-72B表现优异,超越众多闭源模型。端侧小模型发展迅速,落地可行性大幅提升。SuperCLUE团队发布的报告,通过多维度、多层次测评体系,全面评估了大模型的通用能力和专项能力,为行业发展提供了客观数据支持。报告还指出,尽管大模型在多领域展现潜力,但仍面临技术挑战和应用落地问题。
李继刚新写这个段子手效果太好了,提示词更新了:[李继刚:用Claude做卡片](https://waytoagi.feishu.cn/wiki/OWTow2oPViaMZ4ky2CKcRI30nGg)《[SuperCLUE:中文大模型基准测评2024年10月报告](https://waytoagi.feishu.cn/record/Opt7r6AyZeCNSec1Pp3ci7n9n6d)》SuperCLUE团队在新一期的[大模型评测报告](https://mp.weixin.qq.com/s/YvAnoCyalUU28ujDSgEqkg)中,有四点核心发现:1)OpenAI发布o1后,全球大模型竞争加剧;2)国内大模型第一梯队竞争激烈,持续迭代表现不俗;3)国内外大模型在不同任务上表现各有优势;4)端侧小模型表现惊艳。
[125]T.Shen,R.Jin,Y.Huang,C.Liu,W.Dong,Z.Guo,X.Wu,Y.Liu,和D.Xiong,“大型语言模型对齐:一项调查”,arXiv预印本arXiv:2309.15025,2023年。[126]X.Liu,X.Lei,S.Wang,Y.Huang,Z.Feng,B.Wen,J.Cheng,P.Ke,Y.Xu,W.L.Tam,X.Zhang,L.Sun,H.Wang,J.Zhang,M.Huang,Y.Dong,和J.Tang,“Alignbench:大型语言模型中文对齐的基准测试”,2023年。[127]P.Christiano,J.Leike,T.B.Brown,M.Martic,S.Legg,和D.Amodei,“基于人类偏好的深度强化学习”,2023年。[128]T.Yu,Y.Yao,H.Zhang,T.He,Y.Han,G.Cui,J.Hu,Z.Liu,H.-T.Zheng,M.Sun,和T.-S.Chua,“RLHF-V:通过细粒度校正人类反馈实现可信赖的MLLMs行为对齐”,2023年。[129]M.S.Jahan和M.Oussalah,“使用自然语言处理进行仇恨言论自动检测的系统综述。”,《神经计算》,第126232页,2023年。[130]OpenAI,“Sora安全。”https://openai.com/sora#safety,2024年。