DiT 架构是一种在 AI 领域,特别是在 3D 模型生成和视频生成中应用的架构。
在 3D 模型生成方面,Rodin Gen-1 采用了 DiT 架构,其拥有超过 1.5B 参数量,能够在数秒内生成带规整四边面片与 PBR 材质的 3D 资产,是目前最接近 Production-Ready 的通用 3D 生成大模型。
在视频生成方面,Sora 为了更好地扩大模型规模,采用了 DiT 架构,其操作的是视频和图像隐代码的时空块(spacetime patch),会将视觉输入表示成一个时空块序列,并将这些时空块用作 Transformer 输入 token。
Rodin Gen-1采用Diffusion Transformer(DiT)架构,拥有超过1.5B参数量,能够在数秒内生成带规整四边面片与PBR材质的3D资产,是目前最接近Production-Ready的通用3D生成大模型。https://hyperhuman.deemos.com/rodin
SSR和TSR模型都基于在通道方面连接了有噪声数据𝐳_𝑡的上采样的输入。SSR是通过双线性大小调整来上采样,而TSR则是通过重复帧或填充空白帧来上采样。Imagen Video还应用了渐进式蒸馏来加速采样,每次蒸馏迭代都可以将所需的采样步骤减少一半。在实验中,他们能够将所有7个视频扩散模型蒸馏为每个模型仅8个采样步骤,同时不会对感知质量造成任何明显损失。为了更好地扩大模型规模,Sora采用了DiT(扩散Transformer)架构,其操作的是视频和图像隐代码的时空块(spacetime patch)。其会将视觉输入表示成一个时空块序列,并将这些时空块用作Transformer输入token。图5:Sora是一个扩散Transformer模型。
图2:3D U-net架构。该网络的输入是有噪声视频z_𝑡、条件信息c和对数信噪比(log-SNR)λ_𝑡。通道乘数M_1,...,M_𝐾表示各层的通道数量。Ho,et al.在2022年提出的Imagen Video基于一组级联的扩散模型,其能提升视频生成的质量,并将输出升级成24帧率的1280x768分辨率视频。Imagen Video架构由以下组件构成,总计7个扩散模型。一个冻结的T5文本编码器,用以提供文本嵌入作为条件输入。一个基础视频扩散模型。一组级联的交织放置的空间和时间超分辨率扩散模型,包含3个TSR(时间超分辨率)和3个SSR(空间超分辨率)组件。图3:Imagen Video的级联式采样流程。在实践中,文本嵌入会被注入到所有组件中,而不只是基础模型中。基础去噪模型使用共享的参数同时在所有帧上执行空间操作,然后时间层将各帧的激活混合起来,以更好地实现时间一致性;事实证明这种方法的效果优于帧自回归方法。图4:Imagen Video扩散模型中一个空间-时间可分离模块的架构。