DALL·E2 也叫 unCLIP,基本可以看成是 DALL·E 和 GLIDE 的合体。
其问题建模采用两阶段方法:
在 Stage2 的 Decoder 训练中:
为了得到大图,还学习了两个 upsample-diffusion-model,分别从 64×64 到 256×256,以及 256×256 到 1024×1024。使用了 guidance-free 的方式,10%的概率随机擦除 CLIP text embedding 输入,50%概率随机丢弃 caption 输入。
在 Stage1 的 Prior 训练方面:
DALL·E2 是在 2022 年引发了基于图像的生成式 AI 热潮的模型。它把 GLIDE 和 DALL·E 结合在一起,把效果做出了圈。同时,它是 AIGC 组成原理中 Image 生成部分重点介绍的模型之一。
[title](6)AIGC组成原理(下)[heading1]Image生成[heading2]DALL-E2也叫unCLIP,因为CLIP是把图片变成feature,DALL-E2是把feature变成图片。DALL-E2基本可以看成是DALL-E和GLIDE的合体。问题建模很直接,跟DALL-E一样是两阶段方法Stage1:通过caption得到CLIP image embedding的prior过程。方式要么用DALL-E中的autoregressive方法,要么用另外一个diffusion模型来做Stage2:通过CLIP image embedding到生成图片的diffusion decoder。这个过程带有较强的随机性,多样性比DALL-E中的dVAE要好先说Stage2的Decoder的训练本质是个Diffusion模型,细节借鉴了GLIDE。每一次传播过程都会把CLIP text embedding拼接在timestamp embedding后面,CLIP text embedding代表了text全局信息类似GLIDE,把caption原始序列也加入attention里,希望能补充CLIP text embedding没有捕捉到的NLP信息,但是发现效果一般。为了得到大图,还学习了两个upsample-diffusion-model,分别从$$64 \times 64$$到$$256 \times 256$$,以及$$256 \times 256$$到$$1024\times 1024$$使用了guidance-free的方式,10%的概率随机擦除CLIP text embedding输入,50%概率随机丢弃caption输入再说Stage1的Prior训练
[title]进阶:a16z推荐进阶经典[heading1]里程碑式的研究成果[heading3]图像生成模型[Learning transferable visual models from natural language supervision](https://arxiv.org/abs/2103.00020)(2021):这篇论文介绍了一种基础模型CLIP,将文本描述与图像联系起来。这是计算机视觉中首次有效的大规模使用基础模型。([博客文章](https://openai.com/research/clip))[Zero-shot text-to-image generation](https://arxiv.org/abs/2102.12092)(2021):这篇论文介绍了DALL-E,这是一种将上述的CLIP和GPT-3结合起来,根据文本提示自动生成图像的模型。它的后继者,DALL-E 2,在2022年引发了基于图像的生成式AI热潮。([博客文章](https://openai.com/research/dall-e))[High-resolution image synthesis with latent diffusion models](https://arxiv.org/abs/2112.10752)(2021):描述稳定扩散的论文(在发布和爆炸性开源增长之后)。[Photorealistic text-to-image diffusion models with deep language understanding](https://arxiv.org/abs/2205.11487)(2022年):Imagen是Google进入AI图像生成领域的尝试。尽管在宣布后的一年多时间里,该模型截止到本文发布日期仍未公开发布。([网站](https://imagen.research.google/))[DreamBooth:Fine tuning text-to-image diffusion models for subject-driven generation](https://arxiv.org/abs/2208.12242)(2022):DreamBooth是Google开发的一种系统,用于训练模型识别用户提交的主题,并将其应用到提示的上下文中(例如[用户]在艾菲尔铁塔下微笑)。([网站](https://dreambooth.github.io/))
[title](6)AIGC组成原理(下)[heading1]开篇Image生成。重点介绍了VAE系列和Diffusion系列,各选了3种方法VAE系列。[VQ-VAE(2017.11)](https://arxiv.org/abs/1711.00937)把VAE的隐空间变成了离散的;[dVAE(2021.02)](https://arxiv.org/abs/2102.12092)使用gumbel softmax trick提高了VQ-VAE的随机性;[DALL-E(2021.02)](https://arxiv.org/abs/2102.12092)分别建模了$$p\theta(x|z)$$$$p\theta(x|z)$$和$$p\psi(z|y)$$$$p\psi(z|y)$$完成了文生图的任务。Diffusion系列。[GLIDE(2021.12)](https://arxiv.org/abs/2112.10741)贯彻了classifier-free的思路,完成了文生图和带文字的图片编辑任务;[DALL-E2](https://arxiv.org/abs/2204.06125)(2022.04)把GLIDE和DALL-E结合在一起,把效果做出了圈;[ControlNet(2023.02)](https://arxiv.org/abs/2302.05543)用旁路网络和zero convolution的方式把多种condition植入stable diffusion模型,得到了广泛的应用