Chat with Wiki - 文生长图

Answer

以下是关于文生图的相关知识：

SD 新手入门图文教程中的文生图最简流程：
- CFG Scale（提示词相关性）：影响图像与提示的匹配程度，一般开到 7 - 11，过高会导致粗犷线条和过锐化图像，可通过更多采样步骤抵消。
- 生成批次：每次生成图像的组数，一次运行生成图像的数量为“批次×批次数量”。
- 每批数量：同时生成的图像数量，增加会提高性能但需更多显存，无 12G 显存时保持为 1。
- 尺寸：指定图像长宽，太宽可能出现多个主体，1024 之上尺寸可能效果不理想，推荐小尺寸分辨率+高清修复。
- 种子：决定模型生成图片时的随机性，相同参数下理论上应生成相同图片。
- 高清修复：通过勾选“Highres.fix”启用，先按指定尺寸生成再放大以实现高清大图效果。
Liblibai 简易上手教程中的文生图流程：
- 定主题：确定生成图片的主题、风格和表达信息。
- 选择 Checkpoint：根据主题找贴近的，如麦橘、墨幽的系列模型。
- 选择 lora：寻找内容重叠的 lora 控制图片效果及质量。
- 设置 VAE：无脑选 840000 那一串。
- CLIP 跳过层：设成 2。
- Prompt 提示词：用英文写需求，单词和短语组合，用英文半角逗号隔开。
- 负向提示词 Negative Prompt：用英文写避免产生的内容，单词和短语组合，用英文半角逗号隔开。
- 采样方法：一般选 DPM++2M Karras，也可参考模型作者推荐的采样器。
- 迭代步数：根据采样器特征，选 DPM++2M Karras 时在 30 - 40 之间。
- 尺寸：根据个人喜好和需求选择。
- 生成批次：默认 1 批。
模型能力简介：Kolors 是开源文生图模型中表现出色的一个，技术改进全面，有更强的中文文本编码器等，实测效果不错，展现了快手的技术实力。

Content generated by AI large model, please carefully verify (powered by aily)

References

CFG Scale（提示词相关性）图像与你的提示的匹配程度。增加这个值将导致图像更接近你的提示，但它也在一定程度上降低了图像质量。可以用更多的采样步骤来抵消。过高的CFG Scale体现为粗犷的线条和过锐化的图像。一般开到7~11。CFG Scale与采样器之间的关系：生成批次每次生成图像的组数。一次运行生成图像的数量为“批次*批次数量”。每批数量同时生成多少个图像。增加这个值可以提高性能，但也需要更多的显存。大的Batch Size需要消耗巨量显存。若没有超过12G的显存，请保持为1。尺寸指定图像的长宽。出图尺寸太宽时，图中可能会出现多个主体。1024之上的尺寸可能会出现不理想的结果，推荐使用小尺寸分辨率+高清修复（Hires fix)。种子种子决定模型在生成图片时涉及的所有随机性，它初始化了Diffusion算法起点的初始值。理论上，在应用完全相同参数（如Step、CFG、Seed、prompts）的情况下，生产的图片应当完全相同。高清修复通过勾选"Highres.fix"来启用。默认情况下，文生图在高分辨率下会生成非常混沌的图像。如果使用高清修复，会型首先按照指定的尺寸生成一张图片，然后通过放大算法将图片分辨率扩大，以实现高清大图效果。最终尺寸为（原分辨率*缩放系数Upscale by)。

Liblibai简易上手教程

定主题：你需要生成一张什么主题、什么风格、表达什么信息的图。（没错我是喜欢看plmm多点）选择Checkpoint：按照你需要的主题，找内容贴近的checkpoint。一般我喜欢用模型大佬麦橘、墨幽的系列模型，比如说麦橘写实、麦橘男团、墨幽人造人等等，效果拔群。选择lora：在你想要生成的内容基础上，寻找内容重叠的lora，帮助你控制图片效果及质量。可以多看看广场上做得好看的帖子里面，他们都在用什么lora。设置VAE：无脑选840000那一串就行。CLIP跳过层：设成2就行。Prompt提示词：用英文写你想要AI生成的内容，不用管语法也不要写长句，仅使用单词和短语的组合去表达你的需求。单词、短语之间用英文半角逗号隔开即可。负向提示词Negative Prompt：用英文写你想要AI避免产生的内容，也是一样不用管语法，只需单词和短语组合，中间用英文半角逗号隔开。采样方法：这玩意儿还挺复杂的，现在一般选DPM++2M Karras比较多。当然，最稳妥的是留意checkpoint的详情页上，模型作者是否有推荐采样器，使用他们推荐的采样器会更有保障迭代步数：要根据你采样器的特征来，一般我选了DPM++2M Karras之后，迭代步数在30~40之间，多了意义不大还慢，少了出图效果差。尺寸：看你喜欢，看你需求。生成批次：默认1批。

模型能力简介

Kolors可以说是最近开源的文生图模型中最给力的一个了。从技术报告来看，改进也是很全面的，更强的中文文本编码器、机造的高质量文本描述、人标的高质量图片、强大的中文渲染能力，以及巧妙的noise schedule解决高分辨率图加噪不彻底的问题。可以说是目前主流的文生图训练技巧都用上了，实测效果也确实很不错。在看到Kling视频生成的强大表现，不得不让人赞叹快手的技术实力。