SFT 即监督微调(Supervised Fine-Tuning),以下是关于 SFT 的一些相关信息:
最后,研究者介绍了预训练模型之上训练的监督微调(SFT)实验。他们遵循LLaVA-1.5和LLaVA-NeXT,从不同的数据集中收集了大约100万个SFT样本。鉴于直观上,更高的图像分辨率会带来更好的性能,研究者还采用了扩展到高分辨率的SFT方法。监督微调结果如下:表4展示了与SOTA比较的情况,「-Chat」表示监督微调后的MM1模型。首先,平均而言,MM1-3B-Chat和MM1-7B-Chat优于所有列出的相同规模的模型。MM1-3B-Chat和MM1-7B-Chat在VQAv2、TextVQA、ScienceQA、MMBench以及最近的基准测试(MMMU和MathVista)中表现尤为突出。其次,研究者探索了两种MoE模型:3B-MoE(64位专家)和6B-MoE(32位专家)。在几乎所有基准测试中,苹果的MoE模型都比密集模型取得了更好的性能。这显示了MoE进一步扩展的巨大潜力。第三,对于30B大小的模型,MM1-30B-Chat在TextVQA、SEED和MMMU上的表现优于Emu2-Chat37B和CogVLM-30B。与LLaVA-NeXT相比,MM1也取得了具有竞争力的全面性能。不过,LLaVA-NeXT不支持多图像推理,也不支持少样本提示,因为每幅图像都表示为2880个发送到LLM的token,而MM1的token总数只有720个。这就限制了某些涉及多图像的应用。
在预训练阶段,通常利用X-Text的数据集,来训练输入,输出的Projector。通过优化损失函数来实现不同模态的对齐。PEFT有时候用于LLM Backbone。X-文本数据集包含图像-文本、视频-文本和音频-文本,其中图像-文本有两种类型:图像-文本对(即<img1><txt1>)和交错图像-文本语料库(即,txt1><img1><txt2><txt3><img2><txt4>)。这些X-Text数据集的详细统计数据如附录F的表3所示。[heading3]3.2多模态微调:[content]多模态微调是对满足指令微调格式的一系列数据集对预训练好的多模态大模型进行微调。通过这种微调,MM-LLM是可以遵循新的指令泛化到没有见过的任务,增强zero-shot的能力。这个简单而有影响力的概念促进了NLP领域后续努力的成功,例如,InstructGPT、OPT-IML、InstructBLIP。MM IT包括监督微调(SFT)和RLHF两部分,目的是为了使得模型符合人类的意图或者偏好,并且增强MMLLMs的交互能力。SFT将PT阶段的额数据转换为指令-aware的格式,使用QA任务作为例子。可以采用各种模板,例如:(1)<Image>{Question}A short answer to the question is;(2)<Image>Examine the image and respond to the following question with a brief answer:{Question}.Answer:优化目标和预训练是相同的,SFT数据可以构造为单论的QA或者多伦的QA。常用的SFT和RLHF的数据集见表4。
指令调优涵盖有监督的微调(SFT)和通过人类反馈的强化学习(RLHF),使用奖励模型。作者在文本和多模态设置中应用指令调优。指令调优的食谱精心设计,以平衡有益性的增加与与安全性和错觉相关的模型危害的减少(Bai等人,2022年)。SFT需要对“优质”数据进行整理,以进行奖励模型训练和RLHF。数据混合比例通过较小的模型进行消融,以平衡有用性指标(如遵循指示、创造力)和减少模型危害,并且这些结果可以很好地推广到较大的模型。我们还观察到数据质量比数量更重要(Touvron等人,2023b;Zhou等人,特别是针对较大的模型。同样,对于奖励模型训练,我们发现平衡数据集非常重要,其中包含模型倾向于出于安全原因说“我无法帮助”的示例以及输出有帮助回答的示例。我们使用多目标优化,通过从有用性、真实性和安全性的奖励分数的加权和来训练多头奖励模型。我们进一步阐述了我们的方法来减轻有害文本生成的风险。我们在各种用例中列举了大约20种有害类型(例如仇恨言论,提供医疗建议,建议危险行为)。我们通过政策专家和机器学习工程师的手动方式,或者通过使用主题关键词作为种子来提示高能力语言模型,生成了一个潜在危害查询的数据集。