以下是关于训练以及部署微调模型的相关知识:
创建微调模型: 假设您已准备好训练数据,使用 OpenAI CLI 开始微调工作。需指定从哪个 BASE_MODEL 开始,如 ada、babbage、curie 或 davinci,还可使用后缀参数自定义微调模型的名称。运行命令后会进行以下操作:
GPT 助手的训练: 在有监督的微调阶段,收集少量但高质量的数据集,要求人工承包商收集提示和理想响应的数据,通常是几万个或类似数量。然后对这些数据进行语言建模,算法不变,只是训练集从互联网文档变为问答提示响应类型的数据。训练后得到有监督的微调模型(SFT 模型),可实际部署,它们在某种程度上是有用的。
大型语言模型的微调: 一旦有了基础模型,就进入计算成本相对较低的微调阶段。在这个阶段,编写标签说明明确助手的表现期望,雇佣人员创建文档,例如收集 100,000 个高质量的理想问答对来微调基础模型,这个过程可能只需一天。然后进行大量评估,部署模型并监控表现,收集不当行为实例并纠正,将正确答案加入训练数据,由于微调成本较低,可每周或每天进行迭代。例如 Llama2 系列,Meta 发布时包括基础模型和助手模型,基础模型不能直接使用,助手模型可直接用于回答问题。
以下假设您已经按照上述说明准备了训练数据。使用OpenAI CLI开始微调工作:您从哪里BASE_MODEL开始的基本模型的名称(ada、babbage、curie或davinci)。您可以使用后缀参数自定义微调模型的名称。运行上面的命令会做几件事:1.使用文件API上传文件(或使用已经上传的文件)2.创建微调作业3.流式传输事件直到作业完成(这通常需要几分钟,但如果队列中有很多作业或您的数据集很大,则可能需要数小时)每个微调工作都从一个默认为curie的基本模型开始。模型的选择会影响模型的性能和运行微调模型的成本。您的模型可以是以下之一:ada、babbage、curie或davinci。请访问我们的定价页面,了解有关微调费率的详细信息。开始微调作业后,可能需要一些时间才能完成。在我们的系统中,您的工作可能排在其他工作之后,训练我们的模型可能需要几分钟或几小时,具体取决于模型和数据集的大小。如果事件流因任何原因中断,您可以通过运行以下命令恢复它:工作完成后,它应该显示微调模型的名称。除了创建微调作业外,您还可以列出现有作业、检索作业状态或取消作业。
在有监督的微调阶段,我们将收集少量但高质量的数据集。在这种情况下,我们将要求人工承包商收集提示和理想响应的数据。我们将收集大量这样的数据,通常是几万个或者类似的数量。然后我们仍然会对这些数据进行语言建模。所以在算法上没有任何改变。我们只是换了一个训练集。之前是互联网文档,这是大量/低质量的,现在基本上是问答提示响应类型的数据,这是少量/高质量的。所以我们仍然会进行语言建模。然后在训练后,我们得到一个SFT模型(有监督的微调模型),你可以实际部署这些模型,它们是真正的助手,并且在某种程度上是有用的。让我向你展示一个示例演示可能是什么样的。这是人工承包商可能会想出的一些随机提示,例如:「你能写一段关于经济学中的「垄断」的简短介绍吗?」之类的?然后承包商也会写出理想的回应。当他们写出这些回应时,他们正在遵循详细的标注文档,他们被要求提供有帮助的、真实的和无害的回答。这些都是标签指令。你可能看不清楚,我也是,但它们很长,这只是人们按照指示去完成这些提示的过程。所以这就是数据集看起来的样子。你可以训练这些模型,这在某种程度上是有效的。
一旦你有了基础模型,你就进入了计算成本相对较低的微调阶段。在这个阶段,你会编写一些标签说明,明确指出你希望你的助手如何表现。然后你会雇佣人员,例如Scale.ai这样的公司,他们会根据你的标签说明实际创建文档。例如,你可能会收集100,000个高质量的理想问答对,然后根据这些数据微调基础模型。这个过程成本较低,可能只需要一天或类似的时间,而不是几个月。这样,你就得到了所谓的助手模型。然后你会进行大量评估,部署模型,并监控其表现,收集不当行为的实例。对于每一个不当行为,你都会希望对其进行纠正。然后你会返回到第一步并重复这个过程。简单来说,解决不当行为的方法是通过某种对话,助手给出了错误的响应。你接受这个错误响应,并要求某人提供正确的答案。然后,这个人会用正确的答案覆盖错误的响应,并将其作为示例加入到你的训练数据中。下次进行微调时,模型就会在这种情况下得到改进。这是一个迭代过程,由于微调的成本较低,你可以每周或每天进行这样的操作。通常,公司会在微调阶段而不是预训练阶段更频繁地进行迭代。需要指出的是,例如我提到的Llama2系列,Meta在发布时就包括了基础模型和助手模型。所以他们发布了这两种类型的模型。基础模型不能直接使用,因为它无法用答案回答问题。如果你向它提问,它只会给你更多问题,或者做类似的事情,因为它只是一个互联网文档采样器。这些模型并不是很有帮助。它们有用的地方在于Meta已经完成了非常昂贵的第一阶段,并给你提供了结果。这样你就可以开始进行自己的微调。这给了你很大的自由。但除此之外,Meta还发布了助手模型。因此,如果你只是想得到问题的答案,你可以使用助手模型,并且可以与之交谈。