Chat with Wiki - 大模型微调数据标注

Answer

大模型微调数据标注是指在已有的大型语言模型基础上，通过对特定领域或任务的数据进行标注和微调，以提高模型在该领域或任务上的性能和准确性。以下是关于大模型微调数据标注的一些内容：

数据源对模型跨领域知识能力的影响：通过对不同数据源的数据集进行微调，可以分析数据源对模型跨领域知识能力的影响。研究表明，模型在头脑风暴、生成和总结等生成任务中表现出色，但在数学和编码方面表现不佳。
数据格式化：在微调模型时，需要对数据进行格式化，包括输入和输出的格式。输入通常以固定分隔符结尾，以通知模型提示的结束和完成的开始。输出应以空格开头，并以固定的停止序列结束，以通知模型完成的结束。
指令微调：在此阶段，模型被训练以理解并执行具体指令，如翻译文本，从而能够回答问题。这一阶段涉及的数据输入量相对于无监督学习阶段有所减少。
对齐过程：通过引入人类的评价标准（奖励函数）和处理特定的格式要求，进一步优化模型的输出以符合人类的期望。这包括处理文化、道德等方面的细节，以确保模型的输出更加贴近人类的价值观。
排序：为了提高模型的性能和准确性，需要对标注数据进行排序和筛选，以确保数据的质量和代表性。

总的来说，大模型微调数据标注是一个复杂的过程，需要对数据进行格式化、清洗、对齐、排序和筛选等处理，以提高模型的性能和准确性。同时，需要注意数据源对模型跨领域知识能力的影响，以及引入人类的评价标准和处理特定的格式要求，以确保模型的输出更加贴近人类的期望。

Content generated by AI large model, please carefully verify (powered by aily)

References

弱智吧：大模型变聪明，有我一份贡献

该研究在不同数据源的数据集上对Yi系列模型（Young et al.,2024）和Qwen-72B（Bai et al.,2023）模型进行了微调，以分析数据源对模型跨领域知识能力的影响，并使用Belle-Eval上基于模型（即GPT-4）的自动评估来评估每个模型在各种任务上的性能。表2、表3分别显示了基于Yi-6B、Yi-34B在不同数据集上进行微调得到的不同模型的性能。模型在头脑风暴、生成和总结等生成任务中表现出色，在数学和编码方面表现不佳。下图4显示了CQIA和其他5个基线（即Yi-6B-Chat、Baichuan2-7B-Chat、ChatGLM2-6B、Qwen-7B-Chat和InternLM-7B-Chat）的逐对比较人类评估结果。结果表明，与强基线相比，CQIA-Subset实现了更高的人类偏好，至少超过60%的响应优于或与基线模型相当。这不仅归因于CQIA能够对人类问题或指令生成高质量的响应，还归因于其响应更符合现实世界的人类沟通模式，从而导致更高的人类偏好。该研究还在SafetyBench上评估了模型的安全性，结果如下表4所示：在COIG Subset数据上训练的模型性能如下表5所示：

微调（Fine-tuning）

要微调模型，您需要一组训练示例，每个训练示例都包含一个输入（“提示”）及其关联的输出（“完成”）。这与使用我们的基本模型明显不同，在基本模型中，您可能会在单个提示中输入详细说明或多个示例。每个提示都应以固定分隔符结尾，以在提示结束和完成开始时通知模型。通常效果很好的简单分隔符是nn###nn.分隔符不应出现在任何提示中的其他地方。由于我们的token化，每个完成都应该以空格开头，它用前面的空格token大多数单词。每次完成都应以固定的停止序列结束，以在完成结束时通知模型。停止序列可以是n、###或任何其他未出现在任何完成中的token。对于推理，您应该按照与创建训练数据集时相同的方式格式化提示，包括相同的分隔符。还指定相同的停止序列以正确截断完成。

学习笔记：【这就是 ChatGPT】了解原理让大语言模型 AI 成为你的打工人

大语言模型训练过程涉及几个关键步骤：无监督学习：这一阶段模型通过分析大量文本数据，学习到语言的基本结构和常识，具备文本补齐能力而非直接回答问题。模型将人类的知识通过向量化的方法转换，从而获得基础的语言模型。清洗出好的数据指令微调：在此阶段，模型被训练以理解并执行具体指令，如翻译文本，从而能够回答问题。这一阶段涉及的数据输入量相对于无监督学习阶段有所减少。输入内容包括3个部分，中间可能有分隔符* Instruct：请你翻译下面这段话* Input：一段英文* Output：一段中文对齐过程：通过引入人类的评价标准（奖励函数）和处理特定的格式要求，进一步优化模型的输出以符合人类的期望。这包括处理文化、道德等方面的细节，以确保模型的输出更加贴近人类的价值观。排序相信在这个过程中，OpenAI很有可能自己构建了一套强大的标注组织体系，高效，又能对抗标注人员能力强依赖。说起来人工标注符合scaling law。