目前模型在理解汉字方面存在一些问题,主要表现为:
为了提升模型对中文文字的生成能力,采取了以下措施:
[heading2]By z.z.h[content][heading2]By进化论[content][heading2]By琼羽Eli[content]2025.03.131.中文的语义理解较差2.看起来交互方式要有大改变了,等模型能力成熟后一定会很哇塞[heading2]By李知锦[content][heading2]by威少[content][heading2]By阿琪[content][heading2]by非翔[content][heading2]By小歪[content]基础入门教程:[✨零门槛玩转AI改图!Gemini 2.0 Flash「说话就能PS」小白教程✨](https://waytoagi.feishu.cn/wiki/VmB3w5JNhi45T5kIZsIcloi9nPb?fromScene=spaceOverview)更多场景探索:照片修复产品设计[heading2]By CY-CHENYUE[content]简单的测试了,从产品草图到模特上身效果图[FocuSee Project 2025-03-13 14-05-17.mp4](https://bytedance.feishu.cn/space/api/box/stream/download/all/EuXKbiQWJo7zeNxDi8tcAoCOncc?allow_redirect=1)[heading2]By何先森Kevin[content]拼乐高[heading2]By洛水[content]剧本场景插画、教学插图、3D建模图[heading2]By羊羊[content]做红烧肉
https://mp.weixin.qq.com/s/jObaC1A3JH6gFW77gLbcoQ[heading2]文风很好,才华横溢的模型[content]a.没有做过太多前额叶切除术等模型a.对汉语的理解很深刻http://xhslink.com/a/zAYvGUeL9uu5https://www.xiaohongshu.com/discovery/item/67950180000000001902ddb3?app_platform=android&ignoreEngage=true&app_version=8.69.3&share_from_user_hidden=true&xsec_source=app_share&type=normal&xsec_token=CBZEgBsaGlbCqtR_EUcJnIyAkRuoCJbzgcpFEl4f4g4mc%3D&author_share=1&xhsshare=WeixinSession&shareRedId=ODY3Rkg7SkA2NzUyOTgwNjY0OTc7PUpL&apptime=1737895645&share_id=f44384d000b142ecbd1e3b8962b26769&share_channel=wechat#pushStateb.非常喜欢用大词[heading2]极强的发散能力,但是难以收敛[content]很容易出现的幻觉例子:听证会http://xhslink.com/a/mxDqBawhywu5但是带来非常强的发散能力http://xhslink.com/a/ZNm5YuLagwu5
准确生成文字的能力一直是文生图模型的一大难题。DALL-E 3和SD3已经有了很强的英文文字生成能力。但是,目前还未有模型具有中文文字的生成能力。中文文字的生成有两点困难:一是相比于英文呢,中文汉字的集合太大,而且纹理结构更复杂;二是缺少中文文字的图文对数据。为了提升中文文字的生成能力,Kolors从两个方面准备数据。一是选择50000个最常用的汉字,机造生成了一个千万级的中文文字图文对数据集。但是机造数据毕竟真实性不足。因此,第二方面又实用OCR和MLLM生成了海报、场景文字等真实中文文字数据集,大概有百万量级。作者观察到,虽然使用机造数据一开始中文文字的生成能力的真实性比较差,但是在结合高质量真实数据之后,真实性大大提升,而且即使是真实数据中不存在的汉字的真实性也得到了提升。[heading3]图片视觉质量[content]作为一个生图模型,好不好看,自然才是最关键的指标。Kolors从数据和训练方法两方面入手,提升图片视觉质量。在网络结构方面,Kolors没有进行改动,仍旧使用与SDXL一致的UNet结构。