判别式 CNN 到生成式大模型的发展经历了以下几个阶段:
- 早期发展(2014 年以前):最初的文生图尝试集中在将简单文本描述转化为图像。这些早期方法依赖于基本的图像处理技术和简单的模型,效果有限,生成的图像质量通常不高。
- 深度学习的崛起(2014 年-2018 年):随着深度学习的发展,尤其是卷积神经网络(CNN)的成功应用,文生图模型开始采用神经网络来改进图像生成的质量和多样性。在这一时期,如 GAN(生成对抗网络)及其变体层出不穷,开始被用于文生图任务,展示了生成更逼真图像的潜力。
- 引入 Transformer(2019 年-2021 年):Transformer 架构,原本在 NLP 领域取得巨大成功,开始被应用于文生图模型,提高模型处理复杂文本和生成高质量图像的能力。如 OpenAI 的 DALL-E 模型,采用了 Transformer 结构来生成与文本描述匹配的图像,成为这一时期的标志性进展。与此同时,以 DDPM 为代表的工作,为 Diffusion Model 奠定了理论基础,众多基于 Transformer 和 Diffusion Model 的研究成果从 2021 下半年开始如雨后春笋般涌现。