Chat with Wiki - 什么样的数据集适合训练大语言模型？

Answer

以下是一些适合训练大语言模型的数据集：

Guanaco：这是一个使用 Self-Instruct 的主要包含中日英德的多语言指令微调数据集，地址为：https://huggingface.co/datasets/JosephusCheung/GuanacoDataset。
chatgpt-corpus：开源了由 ChatGPT3.5 生成的 300 万自问自答数据，包括多个领域，可用于训练大模型，地址为：https://github.com/PlexPt/chatgpt-corpus。
SmileConv：数据集通过 ChatGPT 改写真实的心理互助 QA 为多轮的心理健康支持多轮对话，含有 56k 个多轮对话，其对话主题、词汇和篇章语义更加丰富多样，更加符合在长程多轮对话的应用场景，地址为：https://github.com/qiuhuachuan/smile。

虽然许多早期的大型语言模型主要使用英语语言数据进行训练，但该领域正在迅速发展。越来越多的新模型在多语言数据集上进行训练，并且越来越关注开发专门针对世界语言的模型。然而，在确保不同语言的公平代表性和性能方面仍然存在挑战，特别是那些可用数据和计算资源较少的语言。

大模型的预训练数据通常非常大，往往来自于互联网上，包括论文、代码以及可进行爬取的公开网页等等，一般来说，现在最先进的大模型一般都是用 TB 级别的数据进行预训练。

Content generated by AI large model, please carefully verify (powered by aily)

References

LLM开源中文大语言模型及数据集集合

Guanaco地址：[https://huggingface.co/datasets/JosephusCheung/GuanacoDataset](https://huggingface.co/datasets/JosephusCheung/GuanacoDataset)数据集说明：一个使用Self-Instruct的主要包含中日英德的多语言指令微调数据集。chatgpt-corpus地址：[https://github.com/PlexPt/chatgpt-corpus](https://github.com/PlexPt/chatgpt-corpus)数据集说明：开源了由ChatGPT3.5生成的300万自问自答数据，包括多个领域，可用于用于训练大模型。SmileConv地址：[https://github.com/qiuhuachuan/smile](https://github.com/qiuhuachuan/smile)数据集说明：数据集通过ChatGPT改写真实的心理互助QA为多轮的心理健康支持多轮对话（single-turn to multi-turn inclusive language expansion via ChatGPT），该数据集含有56k个多轮对话，其对话主题、词汇和篇章语义更加丰富多样，更加符合在长程多轮对话的应用场景。

谷歌I/O大会

虽然许多早期的大型语言模型主要使用英语语言数据进行训练，但该领域正在迅速发展。越来越多的新模型在多语言数据集上进行训练，并且越来越关注开发专门针对世界语言的模型。然而，在确保不同语言的公平代表性和性能方面仍然存在挑战，特别是那些可用数据和计算资源较少的语言。Gemma是Google的开放模型系列，旨在通过支持非日耳曼语言的项目开发来应对这些挑战。它的分词器和大量标语词汇使其特别适合处理各种语言。观看印度的开发人员如何使用Gemma创建Navarasa，这是一个针对印度语言进行微调的Gemma模型。[Developing for Indic languages Gemma and Navarasa.mp4](https://bytedance.feishu.cn/space/api/box/stream/download/all/LVXKbQpGIou04uxUaTQcXsJpnCJ?allow_redirect=1)[heading1]通过LearnLM使每位教师都能接触到每个学生[content]谷歌一直在试行由LearnLM提供支持的Google Classroom的新功能，以帮助减轻教师的工作量。应用生成式人工智能，我们正在探索如何帮助简化课程计划流程，使教师能够根据学生的个人需求定制课程和内容，以便他们能够扩大学习影响力并满足学生的需求。[Empowering Every Teacher to Reach Every Student with LearnLM.mp4](https://bytedance.feishu.cn/space/api/box/stream/download/all/XkNDbpJcao66JVxan3ochV8xnFg?allow_redirect=1)

从 0 到 1 了解大模型安全，看这篇就够了

encoder-only:这些模型通常适用于可以自然语言理解任务，例如分类和情感分析.最知名的代表模型是BERTencoder-decoder:此类模型同时结合了Transformer架构的encoder和decoder来理解和生成内容。该架构的一些用例包括翻译和摘要。encoder-decoder的代表是google的T5decoder-only:此类模型更擅长自然语言生成任务。典型使用包括故事写作和博客生成。这也是我们现在所熟知的众多AI助手的结构我们目前耳熟能详的AI助手基本都来自左侧的灰色分支,当然也包括ChatGPT。这些架构都是根据谷歌2017年发布的论文“attention is all you need”中提出的transformer衍生而来的，在transformer中，包括Encoder，Decoder两个结构目前的大型语言模型就是右侧只使用Decoder的Decoder-only架构的模型大模型又大在哪呢？第一，大模型的预训练数据非常大，这些数据往往来自于互联网上，包括论文，代码，以及可进行爬取的公开网页等等，一般来说，现在最先进的大模型一般都是用TB级别的数据进行预训练。第二，参数非常多，Open在2020年发布的GPT-3就已经达到170B的参数在GPT3中，模型可以根据用户输入的任务描述，或给出详细的例子，完成任务但这与我们熟知的ChatGPT仍然有着很大的差距，使用ChatGPT只需要像和人类一样对话，就可以完成任务。除了形式上的不同之外，还有一个更加重要的差距，那就是安全性上的差别。