Chat with Wiki - DIT架构

Answer

DiT 架构是一种在 AI 领域，特别是在 3D 模型生成和视频生成中应用的架构。

在 3D 模型生成方面，Rodin Gen-1 采用了 DiT 架构，其拥有超过 1.5B 参数量，能够在数秒内生成带规整四边面片与 PBR 材质的 3D 资产，是目前最接近 Production-Ready 的通用 3D 生成大模型。

在视频生成方面，Sora 为了更好地扩大模型规模，采用了 DiT 架构，其操作的是视频和图像隐代码的时空块（spacetime patch），会将视觉输入表示成一个时空块序列，并将这些时空块用作 Transformer 输入 token。

Content generated by AI large model, please carefully verify (powered by aily)

References

Rodin Gen-1采用Diffusion Transformer（DiT）架构，拥有超过1.5B参数量，能够在数秒内生成带规整四边面片与PBR材质的3D资产，是目前最接近Production-Ready的通用3D生成大模型。https://hyperhuman.deemos.com/rodin

Lilian Weng｜视频生成的扩散模型

SSR和TSR模型都基于在通道方面连接了有噪声数据𝐳_𝑡的上采样的输入。SSR是通过双线性大小调整来上采样，而TSR则是通过重复帧或填充空白帧来上采样。Imagen Video还应用了渐进式蒸馏来加速采样，每次蒸馏迭代都可以将所需的采样步骤减少一半。在实验中，他们能够将所有7个视频扩散模型蒸馏为每个模型仅8个采样步骤，同时不会对感知质量造成任何明显损失。为了更好地扩大模型规模，Sora采用了DiT（扩散Transformer）架构，其操作的是视频和图像隐代码的时空块（spacetime patch）。其会将视觉输入表示成一个时空块序列，并将这些时空块用作Transformer输入token。图5：Sora是一个扩散Transformer模型。

Lilian Weng｜视频生成的扩散模型

图2：3D U-net架构。该网络的输入是有噪声视频z_𝑡、条件信息c和对数信噪比（log-SNR）λ_𝑡。通道乘数M_1,...,M_𝐾表示各层的通道数量。Ho,et al.在2022年提出的Imagen Video基于一组级联的扩散模型，其能提升视频生成的质量，并将输出升级成24帧率的1280x768分辨率视频。Imagen Video架构由以下组件构成，总计7个扩散模型。一个冻结的T5文本编码器，用以提供文本嵌入作为条件输入。一个基础视频扩散模型。一组级联的交织放置的空间和时间超分辨率扩散模型，包含3个TSR（时间超分辨率）和3个SSR（空间超分辨率）组件。图3：Imagen Video的级联式采样流程。在实践中，文本嵌入会被注入到所有组件中，而不只是基础模型中。基础去噪模型使用共享的参数同时在所有帧上执行空间操作，然后时间层将各帧的激活混合起来，以更好地实现时间一致性；事实证明这种方法的效果优于帧自回归方法。图4：Imagen Video扩散模型中一个空间-时间可分离模块的架构。