Chat with Wiki - 有哪些高质量 sft 多轮对话数据集

Answer

高质量的SFT（Supervised Fine-Tuning）多轮对话数据集在训练对话系统时至关重要。以下是一些公认的高质量多轮对话数据集：

1. ConvAI2 Dataset

ConvAI2数据集是基于Persona-Chat数据集构建的，用于ConvAI2挑战赛。它包含了多轮对话，且每个对话都有明确的角色和背景信息，有助于训练更具个性化的对话系统。

链接: ConvAI2 Dataset

2. DSTC系列数据集

DSTC（Dialogue State Tracking Challenge）系列数据集是多轮对话系统研究中的经典数据集，涵盖了多种任务和领域，如任务导向对话、对话状态跟踪等。

DSTC2: 专注于餐馆预订任务。
DSTC3: 扩展了DSTC2，增加了更多的任务和对话状态。
DSTC6: 涉及对话行为理解和对话状态跟踪。
链接: DSTC Challenge

3. MultiWOZ Dataset

MultiWOZ（Multi-Domain Wizard of Oz）是一个大规模、多领域任务导向对话数据集，涵盖了多个对话场景，如餐馆预订、酒店预订、出租车预订等。数据集中的对话是由实际用户和客服人员通过Wizard-of-Oz方法生成的，质量较高。

链接: MultiWOZ Dataset

4. Ubuntu Dialogue Corpus

Ubuntu Dialogue Corpus是一个大规模、多轮对话数据集，基于Ubuntu的IRC日志。数据集包含技术支持对话，适用于训练技术支持和问答系统。

链接: Ubuntu Dialogue Corpus

5. CoQA Dataset

CoQA（Conversational Question Answering）数据集用于对话式问答系统的训练。数据集中每个对话包含一个给定的文本和相关的问题-回答对。

链接: CoQA Dataset

6. Topical-Chat Dataset

Topical-Chat数据集是微软创建的，用于开发和评估开放领域对话系统。数据集包括不同主题的多轮对话，涉及科技、娱乐、体育等多个领域。

链接: Topical-Chat Dataset

7. Persona-Chat Dataset

Persona-Chat数据集包含多轮对话，每个对话参与者都有预定义的个人信息或“persona”，旨在开发更具个性化和情感的对话系统。

链接: Persona-Chat Dataset

总结

这些数据集覆盖了多种对话场景和任务类型，是开发高质量对话系统的重要资源。在使用这些数据集进行训练时，可以结合具体的应用场景和需求，选择合适的数据集进行SFT。

Content generated by AI large model, please carefully verify (powered by aily)

References

LLM开源中文大语言模型及数据集集合

项目介绍：清洗/构造/翻译中文的ChatGPT数据，推进国内AI的发展，人人可炼优质中文Chat模型。本数据集为ChatGPT约九万个对话数据，由ShareGPT API获得（英文68000，中文11000条，其他各国语言）。项目所有数据最终将以CC0协议并入Multilingual Share GPT语料库。Guanaco地址：[https://huggingface.co/datasets/JosephusCheung/GuanacoDataset](https://huggingface.co/datasets/JosephusCheung/GuanacoDataset)数据集说明：一个使用Self-Instruct的主要包含中日英德的多语言指令微调数据集。chatgpt-corpus地址：[https://github.com/PlexPt/chatgpt-corpus](https://github.com/PlexPt/chatgpt-corpus)数据集说明：开源了由ChatGPT3.5生成的300万自问自答数据，包括多个领域，可用于用于训练大模型。SmileConv地址：[https://github.com/qiuhuachuan/smile](https://github.com/qiuhuachuan/smile)数据集说明：数据集通过ChatGPT改写真实的心理互助QA为多轮的心理健康支持多轮对话（single-turn to multi-turn inclusive language expansion via ChatGPT），该数据集含有56k个多轮对话，其对话主题、词汇和篇章语义更加丰富多样，更加符合在长程多轮对话的应用场景。

（3）ChatBot是怎么炼成的?

MOSS中文名为小苔藓，是上海复旦大学计算机系的类ChatGPT开源模型，也完整经过了SFT和PM阶段，但是PPO阶段使用了另外一种更加简单的方式。数据搜集如前文所说，对话数据的质量是调教ChatBot非常重要的因素，这里MOSS充分借助了ChatGPT的能力，协助生成instruction和conversation，如下所示用户提问instruction。人工写好符合HHH(helpfulness,harmlessness,and honesty)原则的种子问题，然后使用self-instrcution让ChatGPT进行扩展，得到更多的符合HHH的instruction多伦对话conversation。写一个prompt模板，输入由下面3部分组成，喂入ChatGPT，搜集输出结果，和输入拼接在一起，形成完整的多轮对话第一部分：介绍背景，描述是一个Human和AI的对话，让ChatGPT模拟这个对话第二部分：约束Human和AI的对话符合HHH原则第三部分：把上面经过self-instrcution生成的大量instruction作为对话初始状态经过上面的过程，就可以得到若干多伦对话conversation训练数据，将其切分为SFT和PM两部分，分别在对应的阶段使用。SFT&PM阶段训练方法跟InstructGPT和Anthropic差不多PPO阶段MOSS里首先列举了一下当得到了SFT和RM之后，如何进一步提高ChatBot表现的几种方法

LLM开源中文大语言模型及数据集集合

XrayGLM，首个会看胸部X光片的中文多模态医学大模型：地址：[https://github.com/WangRongsheng/XrayGLM](https://github.com/WangRongsheng/XrayGLM)简介：该项目为促进中文领域医学多模态大模型的研究发展，发布了XrayGLM数据集及模型，其在医学影像诊断和多轮交互对话上显示出了非凡的潜力。MeChat，中文心理健康支持对话大模型：地址：[https://github.com/qiuhuachuan/smile](https://github.com/qiuhuachuan/smile)简介：该项目开源的中文心理健康支持通用模型由ChatGLM-6B LoRA 16-bit指令微调得到。数据集通过调用gpt-3.5-turbo API扩展真实的心理互助QA为多轮的心理健康支持多轮对话，提高了通用语言大模型在心理健康支持领域的表现，更加符合在长程多轮对话的应用场景。MedicalGPT地址：[https://github.com/shibing624/MedicalGPT](https://github.com/shibing624/MedicalGPT)简介：训练医疗大模型，实现包括二次预训练、有监督微调、奖励建模、强化学习训练。发布中文医疗LoRA模型shibing624/ziya-llama-13b-medical-lora，基于Ziya-LLaMA-13B-v1模型，SFT微调了一版医疗模型，医疗问答效果有提升，发布微调后的LoRA权重。