Chat with Wiki - 评测模型生图好坏的标准

Answer

评测模型生图好坏的标准主要包括以下几个方面：

模型选择：
- 基础模型（Checkpoint）：生图必需，不同模型适用于不同主题。
- Lora：低阶自适应模型，可用于精细控制面部、材质、物品等细节。
- ControlNet：控制图片中特定图像，如人物姿态、生成特定文字等。
- VAE：类似于滤镜，可调整生图饱和度。
提示词设置：
- 正向提示词（Prompt）：描述想要 AI 生成的内容。
- 负向提示词（Negative Prompt）：描述想要 AI 避免产生的内容。
图片视觉质量：
- 自然度和美观度是关键指标。
- 可从数据和训练方法两方面提升，如使用特定的网络结构。
文字生成能力：
- 目前未有模型具有良好的中文文字生成能力。
- 提升中文文字生成能力需从多方面准备数据。

需要注意的是，模型生图的效果并非完全由这些标准决定，还可能受到其他因素的影响，需要不断尝试和学习以获得更好的生图效果。

Content generated by AI large model, please carefully verify (powered by aily)

References

1.首页-模型\帖子\排行榜：发布了其他大手子炼成的模型、图片。不同的模型有checkpoint和lora两种不同的标签，有些模型的标签后面还有第二个XL的标签，这是属于SDXL这个新模型的意思。点击后可以看模型的详细信息。模型详情信息的下方，是用这个模型生成的图片，俗称返图区。1.基础模型：生图必需的，英文名Checkpoint。任何生图操作必须要选定一个checkpoint模型才能开始操作。注意，checkpoint区别于lora，这两个东西在模型广场都是混着展示的。checkpoint必选，lora可选可不选，任何主题的作图需求，都可以试着在模型广场上搜索或者浏览，然后收集到模型库中用于生图。1.lora：低阶自适应模型，你可以理解为checkpoint的小插件，生图的时候lora可有可无。但是lora的价值还是很明显的，基本上你看到一些精细的控制，如面部、材质、物品等等细节都常见于用相应的lora进行控制。旁边的数值是lora的权重。1.ControlNet：控制图片中一些特定的图像，可以用于控制人物姿态，或者是生成特定文字、艺术化二维码等等。也是高阶技能，后面再学不迟。1.VAE：是个编码器，功能类似于我们熟悉的滤镜，调整生图的饱和度。无脑选择右侧截图中840000这个即可。1.Prompt提示词：想要AI生成的内容（不绝对有效，需要多费功夫学习，哪怕从照抄别人开始）。2.负向提示词Negative Prompt：想要AI避免产生的内容（不绝对有效，也需要费功夫学，哪怕从照抄别人开始）。1.图生图：上传图片之后，sd将根据你的图片和你选择的模型以及输入的prompt等等信息进行重绘。重绘幅度越大，输出的图和输入的图差别就越大。

【SD】角色设计的福音！绘制一致性多角度头像

设置文生图提示词：大模型：majicmixRealistic_v6.safetensors正向提示词：(a character sheet of a woman from different angles with a grey background:1.4),auburn hair,eyes open,cinematic lighting,Hyperrealism,depth of field,photography,ultra highres,photorealistic,8k,hyperrealism,studio lighting,photography,负向提示词：EasyNegative,canvasframe,canvas frame,eyes shut,wink,blurry,hands,closed eyes,(easynegative),((((ugly)))),(((duplicate))),((morbid)),((mutilated)),out of frame,extra fingers,mutated hands,((poorly drawn hands)),((poorly drawn face)),((bad art)),blurry,(((mutation))),(((deformed))),blurry,((bad anatomy)),(((bad proportions))),((extra limbs)),cloned face,(((disfigured))),gross proportions,(malformed limbs),((missing arms)),((missing legs)),((floating limbs)),((disconnected limbs)),((malformed hands)),((missing fingers)),worst quality,((disappearing arms)),((disappearing legs)),(((extra arms))),(((extra legs))),(fused fingers),(too many fingers),(((long neck))),canvas frame,((worst quality)),((low quality)),lowres,sig,signature,watermark,username,bad,immature,cartoon,anime,3d,painting,b&w,设置一下参数：迭代步数：50采样方法：DPM++2M Karras尺寸：1328×800px出图！15个不同角度的人物图片，大概看下来基本就是同一个人，没毛病。

模型能力简介

准确生成文字的能力一直是文生图模型的一大难题。DALL-E 3和SD3已经有了很强的英文文字生成能力。但是，目前还未有模型具有中文文字的生成能力。中文文字的生成有两点困难：一是相比于英文呢，中文汉字的集合太大，而且纹理结构更复杂；二是缺少中文文字的图文对数据。为了提升中文文字的生成能力，Kolors从两个方面准备数据。一是选择50000个最常用的汉字，机造生成了一个千万级的中文文字图文对数据集。但是机造数据毕竟真实性不足。因此，第二方面又实用OCR和MLLM生成了海报、场景文字等真实中文文字数据集，大概有百万量级。作者观察到，虽然使用机造数据一开始中文文字的生成能力的真实性比较差，但是在结合高质量真实数据之后，真实性大大提升，而且即使是真实数据中不存在的汉字的真实性也得到了提升。[heading3]图片视觉质量[content]作为一个生图模型，好不好看，自然才是最关键的指标。Kolors从数据和训练方法两方面入手，提升图片视觉质量。在网络结构方面，Kolors没有进行改动，仍旧使用与SDXL一致的UNet结构。