VIT 模型是视觉变压器(Vision Transformer)模型。
在计算机视觉领域,在深度学习革命之前,传统图像生成技术依赖手工制作特征,能力有限。生成对抗网络、变分自编码器等的引入是重要转折点,后续如流模型、扩散模型等进一步提高了图像生成质量。过去十年,生成式计算机视觉模型发展多样,在自然语言处理中成功应用的变压器架构被引入计算机视觉,如视觉变压器(ViT)和 Swin 变压器。
Zhai 等人展示了有足够训练数据的 ViT 模型的性能-计算前沿大致遵循(饱和)幂律。谷歌研究提出了高效稳定训练 22B 参数 ViT 的方法,使用冻结模型产生嵌入,然后在顶部训练薄层可实现出色性能。
在语音合成方面,VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)是一种结合变分推理、标准化流和对抗训练的高表现力语音合成模型。与 Tacotron 和 FastSpeech 不同,VITS 直接将字符或音素映射为波形,不需要额外声码器重建波形,是真正的端到端语音合成模型。它通过隐变量而非之前的频谱串联语音合成中的声学模型和声码器,利用随机时长预测器提高合成语音的多样性,输入同样文本能合成不同声调和韵律的语音,合成音质较高,还可借鉴 FastSpeech 单独对音高等特征建模以提升质量,是非常有潜力的语音合成模型。
视觉模型的规模化定律。有了LLMs的规模化定律,自然会问视觉模型的发展是否遵循类似的规模化定律。最近,Zhai等人[24]展示了,有足够训练数据的ViT模型的性能-计算前沿大致遵循(饱和)幂律。继他们之后,谷歌研究[25]提出了一种高效稳定训练22B参数ViT的方法。结果显示,使用冻结模型产生嵌入,然后在顶部训练薄层可以实现出色的性能。Sora作为一个大型视觉模型(LVM),符合这些规模化原则,揭示了文本到视频生成中的几种新兴能力。这一重大进展强调了LVMs实现类似LLMs所见进步的潜力。新兴能力。LLMs中的新兴能力是在某些规模上——通常与模型参数的大小有关——表现出的复杂行为或功能,这些行为或功能并未被开发者明确编程或预期。这些能力被称为“新兴”,因为它们源于模型在多样化数据集上的全面训练,以及其庞大的参数数量。这种组合使模型能够形成联系并做出超越简单模式识别或死记硬背的推断。通常,这些能力的出现不能通过从小规模模型的性能外推来直接预测。虽然许多LLMs,如ChatGPT和GPT-4,展示了新兴能力,但直到Sora的出现,展示类似能力的视觉模型还很少。根据Sora的技术报告,它是第一个展示确认新兴能力的视觉模型,标志着计算机视觉领域的一个重要里程碑。除了其新兴能力,Sora还展示了其他显著能力,包括遵循指令、视觉提示工程和视频理解。Sora的这些功能方面代表了视觉领域的重大进步,并将在后续部分进行探讨和讨论。
在计算机视觉(CV)领域,在深度学习革命之前,传统的图像生成技术依赖于诸如纹理合成[5]和纹理映射[6]等方法,这些方法基于手工制作的特征。然而,这些方法在生成复杂和生动的图像方面的能力是有限的。图3:视觉领域生成式AI的历史。生成对抗网络(GANs)[7]和变分自编码器(VAEs)[8]的引入标志着一个重要的转折点,因为它在各种应用中展现出了非凡的能力。随后的发展,如流模型[9]和扩散模型[10],进一步提高了图像生成的细节和质量。最近在人工智能生成内容(AIGC)技术方面的进展,使内容创作民主化,使用户能够通过简单的文本指令生成所需内容[11]。在过去的十年中,生成式计算机视觉(CV)模型的发展采取了多种路径,如图3所示。这一格局在成功应用变压器架构[12]于自然语言处理(NLP)后开始显著转变,如BERT[13]和GPT[14]所示。在CV中,研究人员通过将变压器架构与视觉组件相结合,将这一概念推向更远,使其能够应用于下游CV任务,如视觉变压器(ViT)[15]和Swin变压器[16]。与变压器的成功平行,扩散模型在图像和视频生成领域也取得了重大进展[10]。扩散模型提供了一个数学上合理的框架,通过U-Nets[17]将噪声转换成图像,其中U-Nets通过学习在每一步预测和减轻噪声来促进这一过程。
VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)是一种结合变分推理(variational inference)、标准化流(normalizing flows)和对抗训练的高表现力语音合成模型。和Tacotron和FastSpeech不同,Tacotron / FastSpeech实际是将字符或音素映射为中间声学表征,比如梅尔频谱,然后通过声码器将梅尔频谱还原为波形,而VITS则直接将字符或音素映射为波形,不需要额外的声码器重建波形,真正的端到端语音合成模型。VITS通过隐变量而非之前的频谱串联语音合成中的声学模型和声码器,在隐变量上进行建模并利用随机时长预测器,提高了合成语音的多样性,输入同样的文本,能够合成不同声调和韵律的语音。VITS合成音质较高,并且可以借鉴之前的FastSpeech,单独对音高等特征进行建模,以进一步提升合成语音的质量,是一种非常有潜力的语音合成模型。