数据集 -WayToAGI

回答

数据集是用于让大模型重新学习新知识的重要元素。以下为您介绍一些相关的数据集及获取方式：

在 Llama3 部署和微调教程中，微调 Llama3 时需要使用数据集。其获取及简单原理可参考文档：self-llm/LLaMA3/04-LLaMA3-8B-Instruct Lora 微调.md at master · datawhalechina/self-llm，json 下载地址：https://github.com/datawhalechina/self-llm/blob/master/dataset/huanhuan.json
LLM 开源中文大语言模型及数据集集合中的一些数据集：
- Alpaca-CoT：地址：https://github.com/PhoebusSi/Alpaca-CoT，统一了丰富的 IFT 数据、多种训练效率方法以及多种 LLM 层面上的接口，打造方便研究人员上手的 LLM-IFT 研究平台。
- pCLUE：地址：https://github.com/CLUEbenchmark/pCLUE，基于提示的大规模预训练数据集，用于多任务学习和零样本学习。包括 120 万训练数据，73 个 Prompt，9 个任务。
- firefly-train-1.1M：地址：https://huggingface.co/datasets/YeungNLP/firefly-train-1.1M，包含 23 个常见的中文数据集，对于每个任务，由人工书写若干种指令模板，保证数据的高质量与丰富度，数据量为 115 万。
- BELLE-data-1.5M：地址：https://github.com/LianjiaTech/BELLE/tree/main/data/1.5M，通过 self-instruct 生成，使用了中文种子任务，以及 openai 的 text-davinci-003 接口，涉及 175 个种子任务。
中文数据集中的命名实体识别相关数据集：
- NER：
  - 1998 人民日报语料集实体识别标注集，数据来源为 98 年人民日报，标注形式为 BIO，共有 23061 条语料。
  - Boson，标注形式为 BMEO，共有 2000 条语料。
  - CLUE Fine-Grain NER，CLUENER2020 数据集，是在清华大学开源的文本分类数据集 THUCTC 基础上，选出部分数据进行细粒度命名实体标注，原数据来源于 Sina News RSS。数据包含 10 个标签类别，训练集共有 10748 条语料，验证集共有 1343 条语料。

内容由 AI 大模型生成，请仔细甄别（powered by aily）

参考资料

大模型微调的意义在于学习新的知识，因此我们需要使用一份叫做数据集的东西。数据集就是用来让大模型重新学习的知识数据集的获取以及简单的原理可以参考文档：[self-llm/LLaMA3/04-LLaMA3-8B-Instruct Lora微调。md at master · datawhalechina/self-llm](https://github.com/datawhalechina/self-llm/blob/master/LLaMA3/04-LLaMA3-8B-Instruct%20Lora%20%E5%BE%AE%E8%B0%83.md)数据集：json下载地址：[https://github.com/datawhalechina/self-llm/blob/master/dataset/huanhuan.json](https://github.com/datawhalechina/self-llm/blob/master/dataset/huanhuan.json)

LLM开源中文大语言模型及数据集集合

Alpaca-CoT：地址：[https://github.com/PhoebusSi/Alpaca-CoT](https://github.com/PhoebusSi/Alpaca-CoT)数据集说明：统一了丰富的IFT数据（如CoT数据，目前仍不断扩充）、多种训练效率方法（如lora，p-tuning）以及多种LLMs，三个层面上的接口，打造方便研究人员上手的LLM-IFT研究平台。pCLUE：地址：[https://github.com/CLUEbenchmark/pCLUE](https://github.com/CLUEbenchmark/pCLUE)数据集说明：基于提示的大规模预训练数据集，用于多任务学习和零样本学习。包括120万训练数据，73个Prompt，9个任务。firefly-train-1.1M：地址：[https://huggingface.co/datasets/YeungNLP/firefly-train-1.1M](https://huggingface.co/datasets/YeungNLP/firefly-train-1.1M)数据集说明：23个常见的中文数据集，对于每个任务，由人工书写若干种指令模板，保证数据的高质量与丰富度，数据量为115万BELLE-data-1.5M：地址：[https://github.com/LianjiaTech/BELLE/tree/main/data/1.5M](https://github.com/LianjiaTech/BELLE/tree/main/data/1.5M)数据集说明：通过self-instruct生成，使用了中文种子任务，以及openai的text-davinci-003接口,涉及175个种子任务Chinese Scientific Literature Dataset：

中文数据集

NER|ID|标题|更新日期|数据集提供者|许可|说明|关键字|类别|论文地址|备注|<br>|-|-|-|-|-|-|-|-|-|-|<br>|4|[1998人民日报语料集实体识别标注集](https://github.com/ThunderingII/nlp_ner/tree/master/data)|35796|人民日报||数据来源为98年人民日报，标注形式为BIO，共有23061条语料|98人民日报|命名实体识别|\|中文|<br>|5|[Boson](https://github.com/TomatoTang/BILSTM-CRF)|\|玻森数据||数据来源为Boson，标注形式为BMEO,共有2000条语料|Boson|命名实体识别|\|中文|<br>|6|[CLUE Fine-Grain NER](https://storage.googleapis.com/cluebenchmark/tasks/cluener_public.zip)|2020年|CLUE||CLUENER2020数据集，是在清华大学开源的文本分类数据集THUCTC基础上，选出部分数据进行细粒度命名实体标注，原数据来源于Sina News RSS。数据包含10个标签类别，训练集共有10748条语料，验证集共有1343条语料|细粒度；CULE|命名实体识别|\|中文|