AI 指令精调版本指的是:对于在通用数据集上预训练的模型,进行复制后,以这些学习到的权重为起点,在新的特定领域数据集上重新训练模型。这种技术在很多不同的用例中都非常有效。
指令调整可以使模型更好地遵循指令。例如在生成式人工智能项目中,对于一个预训练过的模型,可以通过微调来获得更好的回答。在大型语言模型中,通过在格式化为指令的任务混合物上对模型进行微调,可以获得并增强遵循提示的能力。经过指令调整的模型能够更准确地遵循指令,在未见任务上的表现显著优于未调整的模型,将大型语言模型转变为通用任务解决器,是 AI 发展历史上的一个范式转变。
但当对大型语言模型(LLM)进行微调时,会遇到一些挑战。因为 LLM 规模较大,更新每个权重可能需要很长时间的训练工作,同时还涉及到为这个巨大模型提供服务的麻烦和成本等问题,所以微调大型语言模型可能不是最佳选择。
12:09及时的设计允许快速试验和定制。而且由于您没有编写任何复杂的代码,因此您无需成为ML专家即可开始使用。但是制作提示可能很棘手。12:20措辞或词序的微小变化可能会以无法完全预测的方式影响模型结果。而且您无法真正将所有那么多示例放入提示中。12:29即使您确实为您的用例发现了一个好的提示,您可能会注意到模型响应的质量并不完全一致。为了缓解这些问题,我们可以做的一件事是调整模型。12:40那么调音是什么?好吧,您可能熟悉的一个版本是微调。在这种情况下,我们采用在通用数据集上预训练的模型。我们复制了这个模型。12:51然后,以这些学习到的权重为起点,我们在新的特定领域数据集上重新训练模型。这种技术对于许多不同的用例都非常有效。13:01但是当我们尝试微调LLM时,我们遇到了一些挑战。顾名思义,法学硕士是大型的。因此更新每个权重可能需要很长时间的训练工作。13:12将所有这些计算与现在必须为这个巨大模型提供服务的麻烦和成本相结合……因此,微调大型语言模型可能不是您的最佳选择。
指令调整:一个预训练过的模型,微调好的回答。微调并回答问题RLHF目的是让大模型的回答,有帮助,诚实,无害。第一步:训练高质量的模型,比如生成的回答,让人类进行打分,而形成输入与输出的监督学习模型第二步:让大模型生成大量的回答,不断训练其生成更高质量的回答
LLMs遵循指令的能力已被广泛探索[64,65,66]。这种能力使LLMs能够阅读、理解并适当响应描述未见任务的指令,而无需示例。通过在格式化为指令的任务混合物上对LLMs进行微调[64,66],获得并增强了遵循提示的能力,这称为指令调整。Wei等人[65]展示了经过指令调整的模型能够更准确地遵循指令。LLMs在未见任务上的表现显著优于未调整的模型。指令遵循能力将LLMs转变为通用任务解决器,标志着AI发展历史上的一个范式转变。