在 COMFY UI 中,关于 Tile 平铺预处理器:
此外,ComfyUI 中的 SD3 预训练文本编码器使用了三个固定的预训练文本编码器(CLIP-ViT/G、CLIP-ViT/L 和 T5-xxl)。CLIP-ViT/G 优化了图像和文本之间的关系理解,CLIP-ViT/L 专注于从图像和文本对中提取特征,T5-xxl 是一个强大的文本生成模型,增强了文本提示的理解和生成能力。
这里其他的参数都比较容易理解,重点说下分块长度和分块重叠。需要注意的是分辨率只支持720 x 480,不支持其他分辨率(包括微调)分块长度(t_tile_length):16,时间维度上的分块大小,用于处理长视频。分块重叠(t_tile_overlap):8,时间维度上相邻分块的重叠帧数。有使用过animatediff的小伙伴应该很会有点熟悉,是的,他们是一样的意思,但是,分块长度(t_tile_length),如果和帧数一致,画面会比较稳定,但是变化就会少很多。可以对比下面两张图帧数32,分块长度24帧数32,分块长度32[heading4]分块长度(t_tile_length)[content]这个参数定义了在时间维度上每次处理的帧数,这样做的目的是为了克服GPU内存限制,允许生成比单次能处理的更长的视频。[heading4]分块重叠(t_tile_overlap)[content]这个参数定义了相邻时间块之间重叠的帧数,设置为8意味着每个16帧的块会与下一个块重叠8帧。这种技术的工作原理:1.将长视频分割成多个重叠的短片段(tiles)。2.对每个片段单独进行处理。3.在重叠区域使用混合或平滑技术,以确保片段之间的过渡自然。
使用了三个固定的预训练文本编码器(CLIP-ViT/G、CLIP-ViT/L和T5-xxl)。CLIP-ViT/G:是一种视觉和文本编码器,优化了图像和文本之间的关系理解。CLIP-ViT/L:专注于从图像和文本对中提取特征,进一步增强了模型的多模态理解能力。T5-xxl:一个强大的文本生成模型,增强了文本提示的理解和生成能力。在Stable Diffusion 3(SD3)中使用三个文本预处理器是为了更好地解析和处理输入的文本提示,使生成的图像更符合预期。具体来说,这些预处理器是CLIP-G、CLIP-L和T5-XXL。每个预处理器有不同的特点和用途:1.CLIP-G:CLIP-G(大模型版本)用于处理和理解输入文本,以生成动态和富有变化的图像构图。例如,CLIP-G可以生成偏中心的主体和多样的角度,使图像看起来更加生动和自然。它能够处理复杂的描述和细节,但在处理非常具体的细节时可能效果不如CLIP-L。2.CLIP-L:CLIP-L(大模型版本)用于处理更具体和详细的描述。它更注重文本提示中的细节和风格,例如光照、媒介和风格。CLIP-L在处理主体时会使构图变得更僵硬和居中,但这有助于生成高细节的图像。3.T5-XXL:T5-XXL是一个文本生成模型,辅助CLIP模型更好地理解和生成复杂的文本提示。
平铺和切片都是用于处理大尺寸视频的技术,可以帮助在有限的GPU内存下处理高分辨率视频。tile_sample_min_height:96,最小平铺高度。tile_sample_min_width:96,最小平铺宽度。这两个参数定义了在使用平铺时的最小尺寸。tile_overlap_factor_height:0.083,高度方向的重叠因子。tile_overlap_factor_width:0.083,宽度方向的重叠因子。这些因子决定了平铺时各个块之间的重叠程度。enable_vae_tiling:设置为false,表示不启用VAE(变分自编码器)的图像平铺。enable_vae_slicing:设置为false,表示不启用VAE切片。如果启用了平铺(tiling),它会将大图像分割成小块进行处理,然后再组合起来,这有助于处理大分辨率的视频。VAE切片(如果启用)可以通过分割输入张量来分步计算解码,这有助于节省内存。[heading3]CogVideo图像编码[content]用于视频生视频,目前有点相当于重绘。chunk_size:16这个参数定义了在时间维度上每次处理的帧数。设置为16意味着模型每次会处理16帧的图像块。这有助于在处理长视频序列时管理内存使用。enable_vae_slicing:这个选项控制是否启用VAE(变分自编码器)切片。当设置为false时,不使用VAE切片技术。VAE切片可以通过分割输入张量来分步计算编码,有助于节省内存。