MoE 模型训练比 dense 模型更困难的原因主要包括以下几点:
最后,研究者介绍了预训练模型之上训练的监督微调(SFT)实验。他们遵循LLaVA-1.5和LLaVA-NeXT,从不同的数据集中收集了大约100万个SFT样本。鉴于直观上,更高的图像分辨率会带来更好的性能,研究者还采用了扩展到高分辨率的SFT方法。监督微调结果如下:表4展示了与SOTA比较的情况,「-Chat」表示监督微调后的MM1模型。首先,平均而言,MM1-3B-Chat和MM1-7B-Chat优于所有列出的相同规模的模型。MM1-3B-Chat和MM1-7B-Chat在VQAv2、TextVQA、ScienceQA、MMBench以及最近的基准测试(MMMU和MathVista)中表现尤为突出。其次,研究者探索了两种MoE模型:3B-MoE(64位专家)和6B-MoE(32位专家)。在几乎所有基准测试中,苹果的MoE模型都比密集模型取得了更好的性能。这显示了MoE进一步扩展的巨大潜力。第三,对于30B大小的模型,MM1-30B-Chat在TextVQA、SEED和MMMU上的表现优于Emu2-Chat37B和CogVLM-30B。与LLaVA-NeXT相比,MM1也取得了具有竞争力的全面性能。不过,LLaVA-NeXT不支持多图像推理,也不支持少样本提示,因为每幅图像都表示为2880个发送到LLM的token,而MM1的token总数只有720个。这就限制了某些涉及多图像的应用。
研究者收集了之前的消融结果,确定MM1多模态预训练的最终配方:图像编码器:考虑到图像分辨率的重要性,研究者使用了分辨率为378x378px的ViT-H模型,并在DFN-5B上使用CLIP目标进行预训练;视觉语言连接器:由于视觉token的数量最为重要,研究者使用了一个有144个token的VL连接器。实际架构似乎不太重要,研究者选择了C-Abstractor;数据:为了保持零样本和少样本的性能,研究者使用了以下精心组合的数据:45%图像-文本交错文档、45%图像-文本对文档和10%纯文本文档。为了提高模型的性能,研究者将LLM的大小扩大到3B、7B和30B个参数。所有模型都是在序列长度为4096、每个序列最多16幅图像、分辨率为378×378的情况下,以512个序列的批量大小进行完全解冻预训练的。所有模型均使用AXLearn框架进行训练。他们在小规模、9M、85M、302M和1.2B下对学习率进行网格搜索,使用对数空间的线性回归来推断从较小模型到较大模型的变化(见图6),结果是在给定(非嵌入)参数数量N的情况下,预测出最佳峰值学习率η:通过专家混合(MoE)进行扩展。在实验中,研究者进一步探索了通过在语言模型的FFN层添加更多专家来扩展密集模型的方法。要将密集模型转换为MoE,只需将密集语言解码器替换为MoE语言解码器。为了训练MoE,研究者采用了与密集骨干4相同的训练超参数和相同的训练设置,包括训练数据和训练token。
MoEs可以比密集模型更快地进行预训练,并且在相同数量参数情况下提供更快速度推断。它们需要大量VRAM,因为所有专家必须加载到内存中。微调MoEs存在挑战,但最近对MoE指令微调工作显示出了希望。MoEs由门控网络和专家组成,在变压器模型中替换每个FFN层。训练MoEs更具计算效率性,但它们在微调过程中历史上很难泛化。使用MoEs进行推断速度较快,因为只使用了部分参数,但由于需要加载所有参数而导致内存需求较高。该博文追溯了MoEs的历史、发展以及它们在自然语言处理和计算机视觉领域应用方面。它解释了稀疏性和负载平衡概念在MoEs中至关重要,这对于有效地进行训练和推理非常重要.文章还讨论了如何将MoE与变压器结合起来,特别是像GShard和Switch Transformers这样规模庞大的模型.完成有关利用router Z-loss稳定培养并学习专业知识等问题分析增加专业人员数量对预先培养和微调产生影响博客文章还涉及何时使用稀疏MOES与密集模式,并提供见解使MOES在预先培养和推理更有效列出MOES的开源项目和已发布模式包括Switch Transformers,NLLB MoE,OpenMoe and Mixtral 8x7B未来工作方向包括将稀疏MOES蒸馏成密集模式,模式合并技术和极端量子化技术该博客文章总结了值得探索的MOES领域,并提供进一步阅读主题资源列表。