Chat with Wiki - DALL·E2的介绍

Answer

DALL·E2 也叫 unCLIP，基本可以看成是 DALL·E 和 GLIDE 的合体。

其问题建模采用两阶段方法：

Stage1：通过 caption 得到 CLIP image embedding 的 prior 过程，方式可以是 DALL·E 中的自回归方法，也可以用另外一个扩散模型来做。
Stage2：通过 CLIP image embedding 到生成图片的 diffusion decoder。这个过程带有较强的随机性，多样性比 DALL·E 中的 dVAE 要好。

在 Stage2 的 Decoder 训练中：

本质是个 Diffusion 模型，细节借鉴了 GLIDE。每一次传播过程都会把 CLIP text embedding 拼接在 timestamp embedding 后面，CLIP text embedding 代表了 text 全局信息。
类似 GLIDE，把 caption 原始序列也加入 attention 里，希望能补充 CLIP text embedding 没有捕捉到的 NLP 信息，但效果一般。

为了得到大图，还学习了两个 upsample-diffusion-model，分别从 64×64 到 256×256，以及 256×256 到 1024×1024。使用了 guidance-free 的方式，10%的概率随机擦除 CLIP text embedding 输入，50%概率随机丢弃 caption 输入。

在 Stage1 的 Prior 训练方面：

DALL·E2 是在 2022 年引发了基于图像的生成式 AI 热潮的模型。它把 GLIDE 和 DALL·E 结合在一起，把效果做出了圈。同时，它是 AIGC 组成原理中 Image 生成部分重点介绍的模型之一。

Content generated by AI large model, please carefully verify (powered by aily)

References

（6）AIGC组成原理(下)

[title]（6）AIGC组成原理(下)[heading1]Image生成[heading2]DALL-E2也叫unCLIP，因为CLIP是把图片变成feature，DALL-E2是把feature变成图片。DALL-E2基本可以看成是DALL-E和GLIDE的合体。问题建模很直接，跟DALL-E一样是两阶段方法Stage1:通过caption得到CLIP image embedding的prior过程。方式要么用DALL-E中的autoregressive方法，要么用另外一个diffusion模型来做Stage2:通过CLIP image embedding到生成图片的diffusion decoder。这个过程带有较强的随机性，多样性比DALL-E中的dVAE要好先说Stage2的Decoder的训练本质是个Diffusion模型，细节借鉴了GLIDE。每一次传播过程都会把CLIP text embedding拼接在timestamp embedding后面，CLIP text embedding代表了text全局信息类似GLIDE，把caption原始序列也加入attention里，希望能补充CLIP text embedding没有捕捉到的NLP信息，但是发现效果一般。为了得到大图，还学习了两个upsample-diffusion-model，分别从$$64 \times 64$$到$$256 \times 256$$，以及$$256 \times 256$$到$$1024\times 1024$$使用了guidance-free的方式，10%的概率随机擦除CLIP text embedding输入，50%概率随机丢弃caption输入再说Stage1的Prior训练

进阶：a16z推荐进阶经典

[title]进阶：a16z推荐进阶经典[heading1]里程碑式的研究成果[heading3]图像生成模型[Learning transferable visual models from natural language supervision](https://arxiv.org/abs/2103.00020)（2021）：这篇论文介绍了一种基础模型CLIP，将文本描述与图像联系起来。这是计算机视觉中首次有效的大规模使用基础模型。（[博客文章](https://openai.com/research/clip)）[Zero-shot text-to-image generation](https://arxiv.org/abs/2102.12092)（2021）：这篇论文介绍了DALL-E，这是一种将上述的CLIP和GPT-3结合起来，根据文本提示自动生成图像的模型。它的后继者，DALL-E 2，在2022年引发了基于图像的生成式AI热潮。（[博客文章](https://openai.com/research/dall-e)）[High-resolution image synthesis with latent diffusion models](https://arxiv.org/abs/2112.10752)（2021）：描述稳定扩散的论文（在发布和爆炸性开源增长之后）。[Photorealistic text-to-image diffusion models with deep language understanding](https://arxiv.org/abs/2205.11487)（2022年）：Imagen是Google进入AI图像生成领域的尝试。尽管在宣布后的一年多时间里，该模型截止到本文发布日期仍未公开发布。（[网站](https://imagen.research.google/)）[DreamBooth：Fine tuning text-to-image diffusion models for subject-driven generation](https://arxiv.org/abs/2208.12242)（2022）：DreamBooth是Google开发的一种系统，用于训练模型识别用户提交的主题，并将其应用到提示的上下文中（例如[用户]在艾菲尔铁塔下微笑）。（[网站](https://dreambooth.github.io/)）

（6）AIGC组成原理(下)

[title]（6）AIGC组成原理(下)[heading1]开篇Image生成。重点介绍了VAE系列和Diffusion系列，各选了3种方法VAE系列。[VQ-VAE(2017.11)](https://arxiv.org/abs/1711.00937)把VAE的隐空间变成了离散的；[dVAE(2021.02)](https://arxiv.org/abs/2102.12092)使用gumbel softmax trick提高了VQ-VAE的随机性；[DALL-E(2021.02)](https://arxiv.org/abs/2102.12092)分别建模了$$p\theta(x|z)$$$$p\theta(x|z)$$和$$p\psi(z|y)$$$$p\psi(z|y)$$完成了文生图的任务。Diffusion系列。[GLIDE(2021.12)](https://arxiv.org/abs/2112.10741)贯彻了classifier-free的思路，完成了文生图和带文字的图片编辑任务；[DALL-E2](https://arxiv.org/abs/2204.06125)(2022.04)把GLIDE和DALL-E结合在一起，把效果做出了圈；[ControlNet(2023.02)](https://arxiv.org/abs/2302.05543)用旁路网络和zero convolution的方式把多种condition植入stable diffusion模型，得到了广泛的应用