以下是关于 2024 年度中文大模型基准测评报告的相关信息:
2024 年 7 月 10 日:
《SuperCLUE:中文大模型基准测评 2024 年上半年报告》指出,2024 年上半年中文大模型技术取得显著进展,国内外模型差距缩小至 5%以内。国内开源模型如 Qwen272B 表现优异,超越众多闭源模型。端侧小模型发展迅速,落地可行性大幅提升。该报告通过多维度、多层次测评体系,全面评估了大模型的通用能力和专项能力,为行业发展提供了客观数据支持。同时也指出,尽管大模型在多领域展现潜力,但仍面临技术挑战和应用落地问题。
2024 年 11 月 8 日:
SuperCLUE 团队发布的新一期《SuperCLUE:中文大模型基准测评 2024 年 10 月报告》中有四点核心发现:1)OpenAI 发布 o1 后,全球大模型竞争加剧;2)国内大模型第一梯队竞争激烈,持续迭代表现不俗;3)国内外大模型在不同任务上表现各有优势;4)端侧小模型表现惊艳。
此外,Sora:大型视觉模型的背景、技术、局限性和机遇综述【官方论文】的参考文献包括:
T.Shen,R.Jin,Y.Huang,C.Liu,W.Dong,Z.Guo,X.Wu,Y.Liu,和 D.Xiong,“大型语言模型对齐:一项调查”,arXiv 预印本 arXiv:2309.15025,2023 年。
X.Liu,X.Lei,S.Wang,Y.Huang,Z.Feng,B.Wen,J.Cheng,P.Ke,Y.Xu,W.L.Tam,X.Zhang,L.Sun,H.Wang,J.Zhang,M.Huang,Y.Dong,和 J.Tang,“Alignbench:大型语言模型中文对齐的基准测试”,2023 年。
P.Christiano,J.Leike,T.B.Brown,M.Martic,S.Legg,和 D.Amodei,“基于人类偏好的深度强化学习”,2023 年。
T.Yu,Y.Yao,H.Zhang,T.He,Y.Han,G.Cui,J.Hu,Z.Liu,H.T.Zheng,M.Sun,和 T.S.Chua,“RLHFV:通过细粒度校正人类反馈实现可信赖的 MLLMs 行为对齐”,2023 年。
M.S.Jahan 和 M.Oussalah,“使用自然语言处理进行仇恨言论自动检测的系统综述。”,《神经计算》,第 126232 页,2023 年。
OpenAI,“Sora 安全。”https://openai.com/sorasafety,2024 年。
2024-12-27