以下是关于国内文生图模型的相关信息:
这中间包含了很多不同的模型和工作,比如帮助处理数据的模型,由非专业设计师的标注人员和专业设计师参与的标注工作,训练OCR模型,新构建的数据集等等。我们是第一家这样做的公司。我相信其他模型提供商也会尝试构建类似的东西,我们对此很开放。我们愿意与所有人分享这些信息,所以其他公司可能也会使用相同的技术来生成文本。●Recraft生成带有长文本图像的流程图解镜相工作室:你知道中国公司字节跳动最近也发布了长文本生成功能的文生图模型吗?他们也允许用户生成带有中英文文本的图像。Dorogush:我不确定有多少公司能复制(replicate)我们。现在图像生成领域非常拥挤,有很多公司在微调Stable Diffusion,通过API使用现有模型,用户看到很多工具却不知道该尝试哪个。但实际上只有少数几家公司,包括我们在内,真正在从头训练模型,能够提供极高质量的图像生成。对Recraft来说,主要挑战是要突破这些噪音,让人们开始尝试它。镜相工作室:为什么这么少公司选择创建自己的模型,是因为太难了还是成本太高?Dorogush:两者都是。这确实非常困难,你需要有一个超强的团队,组建这样的团队就很难,而且训练自己的模型也很贵。你要么已经是一家大公司,要么需要从投资者那里筹集资金,向投资者证明你有一个团队,能够利用这些钱提供世界最好的模型,这很有挑战性。镜相工作室:我们注意到,Recraft生成默认是外国面孔而不是亚洲面孔,而且生成的亚洲人有点不自然。这和数据集有关吗?
文本编码器的能力是文生图模型的语义理解能力的关键。一开始,大部分文生图模型使用CLIP(如SD、DALL-E 2)来作为文本编码器。CLIP目标通过图文对比学习训练,来建模视觉语言联合表征空间,是多模态学习领域里程碑式的工作,用于文生图模型的文本编码是很自然的想法。然而,受到训练目标监督粒度的限制,CLIP对于一张图中有多个物体,有不同属性、位置的复杂情况通常理解得较差。表现在生图模型上,就会出现生图结果属性绑定错乱的问题。另外,原始CLIP模型文本编码的最大长度也很有限,只有77。为了提升文生图模型的语义理解能力,Imagen首先提出了使用T5作为文本编码器,并指出了scaling文本编码器比scaling生图UNet带来的提升要显著得多。自此,新的文生图模型纷纷优化文本编码器的能力,有的引入更大更强的T5-XXL(如Imagen、Pixart),有的将多个CLIP或T5的特征结合起来(如SDXL、SD3)作为文本条件。然而,现有的开源模型在中文生图方面的能力还比较一般。直到最近腾讯开源出的Hunyuan-DiT,才有了一个比较可用的中文生图模型。Hunyuan-DiT使用了双语的CLIP模型加多语言的T5模型来作为文本编码器。但是由于多语言T5的训练预料中中文占比太少(只有2%),而CLIP又受限于本身训练目标,细粒度的文本理解能力较差。因此,目前开源界中文、细粒度文生图模型的文本编码器仍存在较大的优化空间。
Kolors可以说是最近开源的文生图模型中最给力的一个了。从技术报告来看,改进也是很全面的,更强的中文文本编码器、机造的高质量文本描述、人标的高质量图片、强大的中文渲染能力,以及巧妙的noise schedule解决高分辨率图加噪不彻底的问题。可以说是目前主流的文生图训练技巧都用上了,实测效果也确实很不错。在看到Kling视频生成的强大表现,不得不让人赞叹快手的技术实力。