高质量的SFT(Supervised Fine-Tuning)多轮对话数据集在训练对话系统时至关重要。以下是一些公认的高质量多轮对话数据集:
ConvAI2数据集是基于Persona-Chat数据集构建的,用于ConvAI2挑战赛。它包含了多轮对话,且每个对话都有明确的角色和背景信息,有助于训练更具个性化的对话系统。
DSTC(Dialogue State Tracking Challenge)系列数据集是多轮对话系统研究中的经典数据集,涵盖了多种任务和领域,如任务导向对话、对话状态跟踪等。
MultiWOZ(Multi-Domain Wizard of Oz)是一个大规模、多领域任务导向对话数据集,涵盖了多个对话场景,如餐馆预订、酒店预订、出租车预订等。数据集中的对话是由实际用户和客服人员通过Wizard-of-Oz方法生成的,质量较高。
Ubuntu Dialogue Corpus是一个大规模、多轮对话数据集,基于Ubuntu的IRC日志。数据集包含技术支持对话,适用于训练技术支持和问答系统。
CoQA(Conversational Question Answering)数据集用于对话式问答系统的训练。数据集中每个对话包含一个给定的文本和相关的问题-回答对。
Topical-Chat数据集是微软创建的,用于开发和评估开放领域对话系统。数据集包括不同主题的多轮对话,涉及科技、娱乐、体育等多个领域。
Persona-Chat数据集包含多轮对话,每个对话参与者都有预定义的个人信息或“persona”,旨在开发更具个性化和情感的对话系统。
这些数据集覆盖了多种对话场景和任务类型,是开发高质量对话系统的重要资源。在使用这些数据集进行训练时,可以结合具体的应用场景和需求,选择合适的数据集进行SFT。
项目介绍:清洗/构造/翻译中文的ChatGPT数据,推进国内AI的发展,人人可炼优质中文Chat模型。本数据集为ChatGPT约九万个对话数据,由ShareGPT API获得(英文68000,中文11000条,其他各国语言)。项目所有数据最终将以CC0协议并入Multilingual Share GPT语料库。Guanaco地址:[https://huggingface.co/datasets/JosephusCheung/GuanacoDataset](https://huggingface.co/datasets/JosephusCheung/GuanacoDataset)数据集说明:一个使用Self-Instruct的主要包含中日英德的多语言指令微调数据集。chatgpt-corpus地址:[https://github.com/PlexPt/chatgpt-corpus](https://github.com/PlexPt/chatgpt-corpus)数据集说明:开源了由ChatGPT3.5生成的300万自问自答数据,包括多个领域,可用于用于训练大模型。SmileConv地址:[https://github.com/qiuhuachuan/smile](https://github.com/qiuhuachuan/smile)数据集说明:数据集通过ChatGPT改写真实的心理互助QA为多轮的心理健康支持多轮对话(single-turn to multi-turn inclusive language expansion via ChatGPT),该数据集含有56k个多轮对话,其对话主题、词汇和篇章语义更加丰富多样,更加符合在长程多轮对话的应用场景。
MOSS中文名为小苔藓,是上海复旦大学计算机系的类ChatGPT开源模型,也完整经过了SFT和PM阶段,但是PPO阶段使用了另外一种更加简单的方式。数据搜集如前文所说,对话数据的质量是调教ChatBot非常重要的因素,这里MOSS充分借助了ChatGPT的能力,协助生成instruction和conversation,如下所示用户提问instruction。人工写好符合HHH(helpfulness,harmlessness,and honesty)原则的种子问题,然后使用self-instrcution让ChatGPT进行扩展,得到更多的符合HHH的instruction多伦对话conversation。写一个prompt模板,输入由下面3部分组成,喂入ChatGPT,搜集输出结果,和输入拼接在一起,形成完整的多轮对话第一部分:介绍背景,描述是一个Human和AI的对话,让ChatGPT模拟这个对话第二部分:约束Human和AI的对话符合HHH原则第三部分:把上面经过self-instrcution生成的大量instruction作为对话初始状态经过上面的过程,就可以得到若干多伦对话conversation训练数据,将其切分为SFT和PM两部分,分别在对应的阶段使用。SFT&PM阶段训练方法跟InstructGPT和Anthropic差不多PPO阶段MOSS里首先列举了一下当得到了SFT和RM之后,如何进一步提高ChatBot表现的几种方法
XrayGLM,首个会看胸部X光片的中文多模态医学大模型:地址:[https://github.com/WangRongsheng/XrayGLM](https://github.com/WangRongsheng/XrayGLM)简介:该项目为促进中文领域医学多模态大模型的研究发展,发布了XrayGLM数据集及模型,其在医学影像诊断和多轮交互对话上显示出了非凡的潜力。MeChat,中文心理健康支持对话大模型:地址:[https://github.com/qiuhuachuan/smile](https://github.com/qiuhuachuan/smile)简介:该项目开源的中文心理健康支持通用模型由ChatGLM-6B LoRA 16-bit指令微调得到。数据集通过调用gpt-3.5-turbo API扩展真实的心理互助QA为多轮的心理健康支持多轮对话,提高了通用语言大模型在心理健康支持领域的表现,更加符合在长程多轮对话的应用场景。MedicalGPT地址:[https://github.com/shibing624/MedicalGPT](https://github.com/shibing624/MedicalGPT)简介:训练医疗大模型,实现包括二次预训练、有监督微调、奖励建模、强化学习训练。发布中文医疗LoRA模型shibing624/ziya-llama-13b-medical-lora,基于Ziya-LLaMA-13B-v1模型,SFT微调了一版医疗模型,医疗问答效果有提升,发布微调后的LoRA权重。