模型蒸馏是将强化学习算法等提取到神经网络中的一种技术。
DeepMind 提出的算法蒸馏(Algorithm Distillation, AD),通过建立因果序列模型将强化学习算法提取到神经网络中。其原理是如果 Transformer 的上下文足够长到包含由于学习更新而产生的策略改进,它应能表示一个策略提升算子,这为将任何 RL 算法通过模仿学习蒸馏成强大的序列模型,并转化为 in-context RL 算法提供了技术可行性。
在视频生成方面,如 Imagen Video 应用了渐进式蒸馏来加速采样,能够将多个视频扩散模型蒸馏为每个模型仅 8 个采样步骤,且不影响感知质量。
此外,在 RLHF 研究中,还存在无意导致的信息蒸馏(unintentional distillation)现象,比如公司雇人做数据标注,此人将任务交给常用的 chatbot 模型,再粘贴结果回来,可能导致各个模型风格趋向一致。
随着研究的进一步探索,DeepMind的研究人员通过观察发现,原则上强化学习算法训练中所学习的顺序性(sequential nature)可以将强化学习过程本身建模为一个「因果序列预测问题」。具体来说,如果一个Transformer的上下文足够长到可以包含由于学习更新而产生的策略改进,那它应该不仅能够表示一个固定的策略,而且能够通过关注之前episodes的状态、行动和奖励表示为一个策略提升算子(policy improvement operator)。当然这里也给未来提供了一种技术上的可行性:即任何RL算法都可以通过模仿学习蒸馏成一个足够强大的序列模型,并将其转化为一个in-context RL算法。基于此,DeepMind提出了算法蒸馏(Algorithm Distillation,AD),通过建立因果序列模型将强化学习算法提取到神经网络中。
Imagen Video还应用了渐进式蒸馏来加速采样,每次蒸馏迭代都可以将所需的采样步骤减少一半。在实验中,他们能够将所有7个视频扩散模型蒸馏为每个模型仅8个采样步骤,同时不会对感知质量造成任何明显损失。为了更好地扩大模型规模,Sora采用了DiT(扩散Transformer)架构,其操作的是视频和图像隐代码的时空块(spacetime patch)。其会将视觉输入表示成一个时空块序列,并将这些时空块用作Transformer输入token。图5:Sora是一个扩散Transformer模型。调整图像模型来生成视频在扩散视频建模方面,另一种重要方法是通过插入时间层来「扩增」预训练的文生图扩散模型,然后就可以选择仅在视频上对新的层进行微调或完全避免进行额外的训练。这个新模型会继承文本-图像对的先验知识,由此可以帮助缓解对文本-视频对数据的需求。在视频数据上进行微调Singer et al.在2022年提出的Make-A-Video是在一个预训练扩散图像模型的基础上扩展一个时间维度,其包含三个关键组件:1.一个在文本-图像对数据上训练的基础文生图模型。2.时空卷积和注意力层,使网络覆盖时间维度。3.一个帧插值网络,用于高帧率生成。
Dwarkesh Pa tel:RLHF对提升模型的实用性非常重要,所以说它限制了模型的功能可能并不准确,但这样训练出来的模型一旦被用在chatbot上,似乎都有一种类似的表达方式,比如说喜欢“delve into things”,喜欢用bullet point,语言风格比较正式和枯燥。还有人抱怨这些模型缺乏创造力,只能创作押韵的诗,写不出不押韵的诗,到最近这种情况才有改变。这些表现是不是由于因为RLHF中的某个环节导致的?如果真是这样,那是因为评分员,还是因为损失函数的设计?为什么所有的chatbot都会呈现出这种风格?John Schulman:在训练过程中我们其实有很大空间来做不同的尝试,最近我们也在努力让生成的文本更加有趣。比如最近ChatGPT的个性已经有了一些改进,和用户闲聊的时候会更有意思,不那么机械。模型会有一些共同的特点,比如很爱用“delve”这个词,这是个挺有意思的现象,我发现自己最近也在使用这个词,不知道是不是从模型那里学来的。另外可能还存在一些无意导致的信息蒸馏(unintentional distillation),比如说公司雇人做数据标注,但这个人直接把任务扔给了他最爱用的chatbot模型,再把结果粘贴回来,这也许是为什么各个模型之间的风格会趋向一致。