Chat with Wiki - 文生图如何提高字在图中的准确率

Answer

要提高文生图中字在图中的准确率，可以从以下几个方面入手：

数据准备：
- 对于中文文字的生成，Kolors从两个方面准备数据。一是选择 50000 个最常用的汉字，机造生成了一个千万级的中文文字图文对数据集，但机造数据真实性不足。二是使用 OCR 和 MLLM 生成海报、场景文字等真实中文文字数据集，大概有百万量级。
- Hugging 和英特尔发布了提高文生图模型空间一致性的方案，包括一个详细标注了空间关系的 600 万张图片的数据集，模型和数据集都会开源。
模型能力：
- DALL-E 3 和 SD3 已经有了很强的英文文字生成能力，但目前还未有模型具有中文文字的生成能力。中文文字的生成存在困难，一是中文汉字的集合大且纹理结构复杂，二是缺少中文文字的图文对数据。
- 作者观察到，使用机造数据结合高质量真实数据后，中文文字生成能力的真实性大大提升，而且即使是真实数据中不存在的汉字的真实性也得到了提升。
训练方法：
- 在包含大量物体的图像上进行训练，可以显著提高图像的空间一致性。

此外，在写文生图的提示词时，通常的描述逻辑是这样的：人物及主体特征（服饰、发型发色、五官、表情、动作），场景特征（室内室外、大场景、小细节），环境光照（白天黑夜、特定时段、光、天空），画幅视角（距离、人物比例、观察视角、镜头类型），画质（高画质、高分辨率），画风（插画、二次元、写实）。通过这些详细的提示词，能更精确地控制绘图。对于新手而言，还有一些功能型辅助网站来帮我们书写提示词，比如：http://www.atoolbox.net/ 、https://ai.dawnmark.cn/ 。还可以去 C 站（https://civitai.com/）里面抄作业。但要注意图像作者使用的大模型和 LORA，不然即使参数一样，生成的图也会截然不同。

Content generated by AI large model, please carefully verify (powered by aily)

References

模型能力简介

准确生成文字的能力一直是文生图模型的一大难题。DALL-E 3和SD3已经有了很强的英文文字生成能力。但是，目前还未有模型具有中文文字的生成能力。中文文字的生成有两点困难：一是相比于英文呢，中文汉字的集合太大，而且纹理结构更复杂；二是缺少中文文字的图文对数据。为了提升中文文字的生成能力，Kolors从两个方面准备数据。一是选择50000个最常用的汉字，机造生成了一个千万级的中文文字图文对数据集。但是机造数据毕竟真实性不足。因此，第二方面又实用OCR和MLLM生成了海报、场景文字等真实中文文字数据集，大概有百万量级。作者观察到，虽然使用机造数据一开始中文文字的生成能力的真实性比较差，但是在结合高质量真实数据之后，真实性大大提升，而且即使是真实数据中不存在的汉字的真实性也得到了提升。[heading3]图片视觉质量[content]作为一个生图模型，好不好看，自然才是最关键的指标。Kolors从数据和训练方法两方面入手，提升图片视觉质量。在网络结构方面，Kolors没有进行改动，仍旧使用与SDXL一致的UNet结构。

【SD】文生图怎么写提示词

下次作图的时候，只需要先选择你的模板，然后点击倒数第二个按钮，就能将这些标准提示词快速输入了。我们来看一下加入标准提示词后的效果，是不是好了很多。我们通常的描述逻辑是这样的：人物及主体特征（服饰、发型发色、五官、表情、动作），场景特征（室内室外、大场景、小细节），环境光照（白天黑夜、特定时段、光、天空），画幅视角（距离、人物比例、观察视角、镜头类型），画质（高画质、高分辨率），画风（插画、二次元、写实）。通过这些详细的提示词，我们就能更精确的控制Stable Diffusion的绘图了。对于新手而言，我们还有一些功能型辅助网站来帮我们书写提示词。比如：http://www.atoolbox.net/。它可以通过选项卡的方式快速地填写关键词信息。还有：https://ai.dawnmark.cn/。它的每种参数都有缩略图可以参考，可以方便我们更加直观的选择提示词。还有一个方法就是去C站（https://civitai.com/）里面抄作业，每一张图都有详细的参数，我们可以点击下面的复制数据按钮。然后直接粘贴到正向提示词栏里，然后点击生成按钮下的第一个按键，Stable Diffusion就可以将所有的参数自动匹配了。不过，还要注意图像作者使用的大模型和LORA，不然即使参数一样，生成的图也会截然不同。我们也可以只取其中比较好的一些描述词使用，比如人物描写、背景描述、一些小元素或者是画面质感之类的。好了，我们讲到这里，大家应该已经基本了解了文生图的使用方法和逻辑了，采用正确的语法规则和思路能让我们得到更好效果的AI绘图，快练习起来吧。-END-白马与少年Stable Diffusion、Blender等学习心得分享139篇原创内容（持续更新中）公众号

AIGC Weekly #66

[Getting it](https://spright-t2i.github.io/)[Righ[content]Hugging和英特尔发布了提高文生图模型空间一致性的方案，大幅提高了模型对提示词中空间关系的理解能力。还有一个详细标注了空间关系的600万张图片的数据集，模型和数据集都会开源。完整简介：当前将文字描述转换为图像的技术（T2I）面临一个关键短板，那就是它们往往无法精准地生成与文字提示中所描述的空间关系相符的图像。在本文中，我们全面调查了这一限制，并开发了一些数据集和方法，以此达到行业领先水平。首先，我们发现目前的图文数据集对空间关系的表达不够充分。为了解决这个问题，我们创建了SPRIGHT——第一个专注于空间关系的大规模数据集，方法是重新标注了来自四个广泛使用的图像数据集的600万张图片。经过三重评估和分析，我们发现SPRIGHT在捕捉空间关系方面大幅超越现有数据集。我们仅使用约0.25%的SPRIGHT数据，就在制作空间准确的图像方面取得了22%的提升，并且在FID（图像质量评分）和CMMD（跨模态匹配度评分）上也有所改进。其次，我们还发现，在包含大量物体的图像上进行训练，可以显著提高图像的空间一致性。特别地，我们在少于500张图片上进行微调后，在T2I综合比赛平台（T2I-CompBench）上达到了0.2133的空间得分，创造了新的最高记录。最后，通过一系列严格的实验和测试，我们记录了多项发现，这些发现有助于深入理解影响文字描述转换为图像技术在空间一致性方面的各种因素。