以下是一些常见的文生图模型排行及相关介绍:
Kolors可以说是最近开源的文生图模型中最给力的一个了。从技术报告来看,改进也是很全面的,更强的中文文本编码器、机造的高质量文本描述、人标的高质量图片、强大的中文渲染能力,以及巧妙的noise schedule解决高分辨率图加噪不彻底的问题。可以说是目前主流的文生图训练技巧都用上了,实测效果也确实很不错。在看到Kling视频生成的强大表现,不得不让人赞叹快手的技术实力。
基于Diffusion Model3.1.发展阶段:2022年至今,受益于开源模式和参数量较少,研究成本相对低,在学术界和工业界的传播和迭代速度快3.2.原理:Diffusion Model通过连续添加高斯噪声来破坏训练数据,然后通过消除噪声来学习如何重建数据3.3.代表模型:Stable Diffusion、Midjourney、GLIDE、DALL-E 2、DALL-E 3基于自回归模型(Auto-regressive Model)4.1.发展阶段:2020年至今,囿于闭源模式和参数量较大,研究成本高,迭代速度慢于Diffusion Model4.2.原理:自回归模型Encoder将文本转化成token,经特征融合后,由训练好的模型Decoder输出图像4.3.代表模型:DALL-E、CogView、CogView2、Parti、CM3leon
文生图模型黑马Red_Panda霸榜Hugging Face,把一众老前辈Midjourney、Flux全部踩在脚下。[报道@机器之心](https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650941110&idx=2&sn=5115eccaeb0fc9158b4f5d75223089a7&scene=21#wechat_redirect)