以下是一些适合测试大语言模型的数据集:
用于评估大语言模型的框架和基准有:
此外,在多语言能力评测方面,还使用了以下数据集:
Guanaco地址:[https://huggingface.co/datasets/JosephusCheung/GuanacoDataset](https://huggingface.co/datasets/JosephusCheung/GuanacoDataset)数据集说明:一个使用Self-Instruct的主要包含中日英德的多语言指令微调数据集。chatgpt-corpus地址:[https://github.com/PlexPt/chatgpt-corpus](https://github.com/PlexPt/chatgpt-corpus)数据集说明:开源了由ChatGPT3.5生成的300万自问自答数据,包括多个领域,可用于用于训练大模型。SmileConv地址:[https://github.com/qiuhuachuan/smile](https://github.com/qiuhuachuan/smile)数据集说明:数据集通过ChatGPT改写真实的心理互助QA为多轮的心理健康支持多轮对话(single-turn to multi-turn inclusive language expansion via ChatGPT),该数据集含有56k个多轮对话,其对话主题、词汇和篇章语义更加丰富多样,更加符合在长程多轮对话的应用场景。
GAOKAO-Bench:地址:[https://github.com/OpenLMLab/GAOKAO-Bench](https://github.com/OpenLMLab/GAOKAO-Bench)简介:GAOKAO-bench是一个以中国高考题目为数据集,测评大模型语言理解能力、逻辑推理能力的测评框架,收集了2010-2022年全国高考卷的题目,其中包括1781道客观题和1030道主观题,构建起GAOKAO-bench的数据部分。AGIEval:地址:[https://github.com/microsoft/AGIEval](https://github.com/microsoft/AGIEval)简介:由微软发布的一项新型基准测试,这项基准选取20种面向普通人类考生的官方、公开、高标准往常和资格考试,包括普通大学入学考试(中国高考和美国SAT考试)、法学入学考试、数学竞赛、律师资格考试、国家公务员考试等等。Xiezhi:地址:[https://github.com/mikegu721/xiezhibenchmark](https://github.com/mikegu721/xiezhibenchmark)简介:由复旦大学发布的一个综合的、多学科的、能够自动更新的领域知识评估Benchmark,包含了哲学、经济学、法学、教育学、文学、历史学、自然科学、工学、农学、医学、军事学、管理学、艺术学这13个学科门类,24万道学科题目,516个具体学科,249587道题目。
我们通过多个跨语言开放基准测试以及人工评估,比较了Qwen2指令微调模型与其他近期的大型语言模型。对于基准测试,我们展示了在2个评估数据集上的结果:M-MMLU:来自Okapi的多语言常识理解数据集(我们在阿、德、西、法、意、荷、俄、乌、越、中这几个子集进行测试)MGSM:包含德、英、西、法、日、俄、泰、中和孟在内的数学评测。结果如下所示:针对人工评测,我们使用内部评估集比较了Qwen2-72B-Instruct与GPT3.5、GPT4和Claude-3-Opus,该评测集包括10种语言:ar(阿拉伯语)、es(西班牙语)、fr(法语)、ko(韩语)、th(泰语)、vi(越南语)、pt(葡萄牙语)、id(印度尼西亚语)、ja(日语)和ru(俄语)。将上述结果分类求平均后,结果如下所示:以上结果均反映了Qwen2指令微调模型突出的多语言能力。