Chat with Wiki - 训练以及部署微调模型

Answer

以下是关于训练以及部署微调模型的相关知识：

创建微调模型：假设您已准备好训练数据，使用 OpenAI CLI 开始微调工作。需指定从哪个 BASE_MODEL 开始，如 ada、babbage、curie 或 davinci，还可使用后缀参数自定义微调模型的名称。运行命令后会进行以下操作：

使用文件 API 上传文件（或使用已上传的文件）。
创建微调作业。
流式传输事件直到作业完成，这通常需要几分钟，但如果队列中有很多作业或数据集很大，则可能需要数小时。每个微调工作都从默认为 curie 的基本模型开始，模型的选择会影响性能和成本，您可访问定价页面了解微调费率的详细信息。开始微调作业后，可能需要一些时间才能完成，若事件流中断，可通过运行特定命令恢复。工作完成后，会显示微调模型的名称。此外，还可以列出现有作业、检索作业状态或取消作业。

GPT 助手的训练：在有监督的微调阶段，收集少量但高质量的数据集，要求人工承包商收集提示和理想响应的数据，通常是几万个或类似数量。然后对这些数据进行语言建模，算法不变，只是训练集从互联网文档变为问答提示响应类型的数据。训练后得到有监督的微调模型（SFT 模型），可实际部署，它们在某种程度上是有用的。

大型语言模型的微调：一旦有了基础模型，就进入计算成本相对较低的微调阶段。在这个阶段，编写标签说明明确助手的表现期望，雇佣人员创建文档，例如收集 100,000 个高质量的理想问答对来微调基础模型，这个过程可能只需一天。然后进行大量评估，部署模型并监控表现，收集不当行为实例并纠正，将正确答案加入训练数据，由于微调成本较低，可每周或每天进行迭代。例如 Llama2 系列，Meta 发布时包括基础模型和助手模型，基础模型不能直接使用，助手模型可直接用于回答问题。

Content generated by AI large model, please carefully verify (powered by aily)

References

微调（Fine-tuning）

以下假设您已经按照上述说明准备了训练数据。使用OpenAI CLI开始微调工作：您从哪里BASE_MODEL开始的基本模型的名称（ada、babbage、curie或davinci）。您可以使用后缀参数自定义微调模型的名称。运行上面的命令会做几件事：1.使用文件API上传文件（或使用已经上传的文件）2.创建微调作业3.流式传输事件直到作业完成（这通常需要几分钟，但如果队列中有很多作业或您的数据集很大，则可能需要数小时）每个微调工作都从一个默认为curie的基本模型开始。模型的选择会影响模型的性能和运行微调模型的成本。您的模型可以是以下之一：ada、babbage、curie或davinci。请访问我们的定价页面，了解有关微调费率的详细信息。开始微调作业后，可能需要一些时间才能完成。在我们的系统中，您的工作可能排在其他工作之后，训练我们的模型可能需要几分钟或几小时，具体取决于模型和数据集的大小。如果事件流因任何原因中断，您可以通过运行以下命令恢复它：工作完成后，它应该显示微调模型的名称。除了创建微调作业外，您还可以列出现有作业、检索作业状态或取消作业。

GPT 的现状（State of GPT）

在有监督的微调阶段，我们将收集少量但高质量的数据集。在这种情况下，我们将要求人工承包商收集提示和理想响应的数据。我们将收集大量这样的数据，通常是几万个或者类似的数量。然后我们仍然会对这些数据进行语言建模。所以在算法上没有任何改变。我们只是换了一个训练集。之前是互联网文档，这是大量/低质量的，现在基本上是问答提示响应类型的数据，这是少量/高质量的。所以我们仍然会进行语言建模。然后在训练后，我们得到一个SFT模型（有监督的微调模型），你可以实际部署这些模型，它们是真正的助手，并且在某种程度上是有用的。让我向你展示一个示例演示可能是什么样的。这是人工承包商可能会想出的一些随机提示，例如：「你能写一段关于经济学中的「垄断」的简短介绍吗？」之类的？然后承包商也会写出理想的回应。当他们写出这些回应时，他们正在遵循详细的标注文档，他们被要求提供有帮助的、真实的和无害的回答。这些都是标签指令。你可能看不清楚，我也是，但它们很长，这只是人们按照指示去完成这些提示的过程。所以这就是数据集看起来的样子。你可以训练这些模型，这在某种程度上是有效的。

文章：Andrej Karpathy 亲授：大语言模型入门

一旦你有了基础模型，你就进入了计算成本相对较低的微调阶段。在这个阶段，你会编写一些标签说明，明确指出你希望你的助手如何表现。然后你会雇佣人员，例如Scale.ai这样的公司，他们会根据你的标签说明实际创建文档。例如，你可能会收集100,000个高质量的理想问答对，然后根据这些数据微调基础模型。这个过程成本较低，可能只需要一天或类似的时间，而不是几个月。这样，你就得到了所谓的助手模型。然后你会进行大量评估，部署模型，并监控其表现，收集不当行为的实例。对于每一个不当行为，你都会希望对其进行纠正。然后你会返回到第一步并重复这个过程。简单来说，解决不当行为的方法是通过某种对话，助手给出了错误的响应。你接受这个错误响应，并要求某人提供正确的答案。然后，这个人会用正确的答案覆盖错误的响应，并将其作为示例加入到你的训练数据中。下次进行微调时，模型就会在这种情况下得到改进。这是一个迭代过程，由于微调的成本较低，你可以每周或每天进行这样的操作。通常，公司会在微调阶段而不是预训练阶段更频繁地进行迭代。需要指出的是，例如我提到的Llama2系列，Meta在发布时就包括了基础模型和助手模型。所以他们发布了这两种类型的模型。基础模型不能直接使用，因为它无法用答案回答问题。如果你向它提问，它只会给你更多问题，或者做类似的事情，因为它只是一个互联网文档采样器。这些模型并不是很有帮助。它们有用的地方在于Meta已经完成了非常昂贵的第一阶段，并给你提供了结果。这样你就可以开始进行自己的微调。这给了你很大的自由。但除此之外，Meta还发布了助手模型。因此，如果你只是想得到问题的答案，你可以使用助手模型，并且可以与之交谈。