Chat with Wiki - 什么样的数据集适合测试大语言模型？

Answer

以下是一些适合测试大语言模型的数据集：

Guanaco：地址为[https://huggingface.co/datasets/JosephusCheung/GuanacoDataset]，是一个使用 Self-Instruct 的主要包含中日英德的多语言指令微调数据集。
chatgpt-corpus：地址为[https://github.com/PlexPt/chatgpt-corpus]，开源了由 ChatGPT3.5 生成的 300 万自问自答数据，包括多个领域，可用于训练大模型。
SmileConv：地址为[https://github.com/qiuhuachuan/smile]，数据集通过 ChatGPT 改写真实的心理互助 QA 为多轮的心理健康支持多轮对话，含有 56k 个多轮对话，其对话主题、词汇和篇章语义更加丰富多样，更符合长程多轮对话的应用场景。

用于评估大语言模型的框架和基准有：

GAOKAO-Bench：地址为[https://github.com/OpenLMLab/GAOKAO-Bench]，是以中国高考题目为数据集，测评大模型语言理解能力、逻辑推理能力的测评框架，收集了 2010 - 2022 年全国高考卷的题目，包括 1781 道客观题和 1030 道主观题。
AGIEval：地址为[https://github.com/microsoft/AGIEval]，是由微软发布的新型基准测试，选取 20 种面向普通人类考生的官方、公开、高标准往常和资格考试，包括普通大学入学考试（中国高考和美国 SAT 考试）、法学入学考试、数学竞赛、律师资格考试、国家公务员考试等。
Xiezhi：地址为[https://github.com/mikegu721/xiezhibenchmark]，是由复旦大学发布的一个综合的、多学科的、能够自动更新的领域知识评估 Benchmark，包含 13 个学科门类，24 万道学科题目，516 个具体学科，249587 道题目。

此外，在多语言能力评测方面，还使用了以下数据集：

M-MMLU：来自 Okapi 的多语言常识理解数据集，在阿、德、西、法、意、荷、俄、乌、越、中这几个子集进行测试。
MGSM：包含德、英、西、法、日、俄、泰、中和孟在内的数学评测。针对人工评测，使用内部评估集比较了 Qwen2-72B-Instruct 与 GPT3.5、GPT4 和 Claude-3-Opus，该评测集包括 10 种语言：ar（阿拉伯语）、es（西班牙语）、fr（法语）、ko（韩语）、th（泰语）、vi（越南语）、pt（葡萄牙语）、id（印度尼西亚语）、ja（日语）和 ru（俄语）。

Content generated by AI large model, please carefully verify (powered by aily)

References

LLM开源中文大语言模型及数据集集合

Guanaco地址：[https://huggingface.co/datasets/JosephusCheung/GuanacoDataset](https://huggingface.co/datasets/JosephusCheung/GuanacoDataset)数据集说明：一个使用Self-Instruct的主要包含中日英德的多语言指令微调数据集。chatgpt-corpus地址：[https://github.com/PlexPt/chatgpt-corpus](https://github.com/PlexPt/chatgpt-corpus)数据集说明：开源了由ChatGPT3.5生成的300万自问自答数据，包括多个领域，可用于用于训练大模型。SmileConv地址：[https://github.com/qiuhuachuan/smile](https://github.com/qiuhuachuan/smile)数据集说明：数据集通过ChatGPT改写真实的心理互助QA为多轮的心理健康支持多轮对话（single-turn to multi-turn inclusive language expansion via ChatGPT），该数据集含有56k个多轮对话，其对话主题、词汇和篇章语义更加丰富多样，更加符合在长程多轮对话的应用场景。

LLM开源中文大语言模型及数据集集合

GAOKAO-Bench:地址：[https://github.com/OpenLMLab/GAOKAO-Bench](https://github.com/OpenLMLab/GAOKAO-Bench)简介：GAOKAO-bench是一个以中国高考题目为数据集，测评大模型语言理解能力、逻辑推理能力的测评框架，收集了2010-2022年全国高考卷的题目，其中包括1781道客观题和1030道主观题，构建起GAOKAO-bench的数据部分。AGIEval:地址：[https://github.com/microsoft/AGIEval](https://github.com/microsoft/AGIEval)简介：由微软发布的一项新型基准测试，这项基准选取20种面向普通人类考生的官方、公开、高标准往常和资格考试，包括普通大学入学考试（中国高考和美国SAT考试）、法学入学考试、数学竞赛、律师资格考试、国家公务员考试等等。Xiezhi:地址：[https://github.com/mikegu721/xiezhibenchmark](https://github.com/mikegu721/xiezhibenchmark)简介：由复旦大学发布的一个综合的、多学科的、能够自动更新的领域知识评估Benchmark，包含了哲学、经济学、法学、教育学、文学、历史学、自然科学、工学、农学、医学、军事学、管理学、艺术学这13个学科门类，24万道学科题目，516个具体学科，249587道题目。

Qwen 2开源了模型性能超越目前所有开源模型和国内闭源模型

我们通过多个跨语言开放基准测试以及人工评估，比较了Qwen2指令微调模型与其他近期的大型语言模型。对于基准测试，我们展示了在2个评估数据集上的结果：M-MMLU：来自Okapi的多语言常识理解数据集（我们在阿、德、西、法、意、荷、俄、乌、越、中这几个子集进行测试）MGSM：包含德、英、西、法、日、俄、泰、中和孟在内的数学评测。结果如下所示：针对人工评测，我们使用内部评估集比较了Qwen2-72B-Instruct与GPT3.5、GPT4和Claude-3-Opus，该评测集包括10种语言：ar（阿拉伯语）、es（西班牙语）、fr（法语）、ko（韩语）、th（泰语）、vi（越南语）、pt（葡萄牙语）、id（印度尼西亚语）、ja（日语）和ru（俄语）。将上述结果分类求平均后，结果如下所示：以上结果均反映了Qwen2指令微调模型突出的多语言能力。