目前国内较好的文生图模型包括:
[title]模型能力简介[heading3]更强的文本编码器文本编码器的能力是文生图模型的语义理解能力的关键。一开始,大部分文生图模型使用CLIP(如SD、DALL-E 2)来作为文本编码器。CLIP目标通过图文对比学习训练,来建模视觉语言联合表征空间,是多模态学习领域里程碑式的工作,用于文生图模型的文本编码是很自然的想法。然而,受到训练目标监督粒度的限制,CLIP对于一张图中有多个物体,有不同属性、位置的复杂情况通常理解得较差。表现在生图模型上,就会出现生图结果属性绑定错乱的问题。另外,原始CLIP模型文本编码的最大长度也很有限,只有77。为了提升文生图模型的语义理解能力,Imagen首先提出了使用T5作为文本编码器,并指出了scaling文本编码器比scaling生图UNet带来的提升要显著得多。自此,新的文生图模型纷纷优化文本编码器的能力,有的引入更大更强的T5-XXL(如Imagen、Pixart),有的将多个CLIP或T5的特征结合起来(如SDXL、SD3)作为文本条件。然而,现有的开源模型在中文生图方面的能力还比较一般。直到最近腾讯开源出的Hunyuan-DiT,才有了一个比较可用的中文生图模型。Hunyuan-DiT使用了双语的CLIP模型加多语言的T5模型来作为文本编码器。但是由于多语言T5的训练预料中中文占比太少(只有2%),而CLIP又受限于本身训练目标,细粒度的文本理解能力较差。因此,目前开源界中文、细粒度文生图模型的文本编码器仍存在较大的优化空间。
Kolors可以说是最近开源的文生图模型中最给力的一个了。从技术报告来看,改进也是很全面的,更强的中文文本编码器、机造的高质量文本描述、人标的高质量图片、强大的中文渲染能力,以及巧妙的noise schedule解决高分辨率图加噪不彻底的问题。可以说是目前主流的文生图训练技巧都用上了,实测效果也确实很不错。在看到Kling视频生成的强大表现,不得不让人赞叹快手的技术实力。
[title]第十六期国产之光kolors最强大的中文文生图模型——可图kolors,快手开源的文生图模型。在LLM大模型的加持下展示出超强的语义理解能力,支持中文输入!!支持图片直出中文!!出图效果很不错!!!